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Lời tựa cho bản e-book 


Cuốn sách này được in ra lần đầu vào năm 2010. Các tác giả đã 
bỏ rất nhiều tâm trí và sức lực để viết nó, nhằm đạt chất lượng tốt 
nhất có thể. Mong muốn của các tác giả là làm sao cuôn sách được 
phổ biến thật rộng rãi ở Việt Nam, đặc biệt là ở các trường đại học, 
để giúp các bạn sinh viên tiếp cận được với xác suất thống kê một 
cách dễ hiểu hơn, đúng bản chất hơn, dễ ứng dụng hơn. 

Từ lúc in ra năm 2010, cuốn sách đã nhận được rất nhiều phản 
hồi tích cực từ phía bạn đọc về mặt nội dung. Về mặt chất lượng in 
ân và phát hành thì không được tốt bằng, và rất tiếc những khâu đó 
nằm ngoài khả năng kiểm soát của các tác giả. Hiện tại bản in năm 
2010 không còn trên thị trường, và các tác giả nhận được thư của 
hàng trăm người nói rằng muốn sách tái bản. 

Để có thể phục vụ tốt hơn các bạn đọc, đặc biệt là các bạn sinh 
viên, các tác giả đã kết hợp với Tủ Sách Sputnik công bô miễn phí 
bản điện tử của cuồn sách này. Một số lỗi trong bản in năm 2010 đã 
được sửa trong bản điện tử này. 


Tủ Sách Sputnik của Sputnik Education, mà các tác giả tham gia 


làm cộng tác viên, là một dự án nhằm đem lại các sản phẩm giáo dục 
có chất lượng cao nhật cho học sinh và sinh viên, góp phần cải thiện 
nên giáo dục của Việt Nam. Vào thời điểm 05/2015, Tủ Sách Sputnik 
đã ra mắt bạn đọc 5 cuốn sách cho học sinh, và có kê hoach ra mắt 
hàng chục cuốn sách khác trong năm tiếp theo. 

Các tác giả tin rằng Tủ Sách Sputnik gồm toàn những cuốn sách 
rất hay, được chọn lọc và dịch hoặc viết rất cẩn thận. Trong đó có 
những cuốn sách như “Những cuộc phiêu lưu của người thích đếm” 
nổi tiếng toàn thế giới, đã in ra hàng triệu bản, lần đầu xuất hiện ỏ 
Việt Nam. Có những cuốn sách nổi tiếng khác như “Ba ngày ở nước Tí 
Hon” trước đây đã từng được dịch ra tiếng Việt, nhưng bản dịch mới 
của Sputnik chính xác hơn, tránh được nhiều lỗi sai của bản dịch cũ. 
Bạn đọc sẽ không phí tiền khi mua chúng cho bản thân hay để tặng 
người thân. 

Xin mời bạn đọc tìm hiểu kỹ hơn về Tủ Sách Sputnik ở phía cuôi 
cuôn sách này. Các tác giả mong rằng bạn đọc sẽ nhiệt tình hưởn ứng 
Tủ Sách Sputnik, qua việc mua sách, quảng bá cho Tủ Sách Sputnik, 
v.v. Ủng hộ Tủ Sách Sputnik là một cách thiết thực để góp phần đem 
lại các sản phẩm giáo dục có chất lượng tốt hơn cho Việt Nam. Xin 
chân thành cảm ơn bạn đọc! 


Hanoi-Toulouse, 05/2015 
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Lời giới thiệu 


Xác suất và thống kê đóng vai trò rât quan trọng trong hầu hết 
mọi lĩnh vực của thế giới hiện đại, từ khoa học, công nghệ, đến kinh 
tế, chính trị, đến sức khỏe, môi trường, v.v. Ngày nay, máy tính giúp 
cho việc tính toán các vẫn để xác suất thống kê ngày càng trỏ nên 
dễ dàng, một khi đã có các số liệu đúng đắn và mô hình hợp lý. Thế 
nhưng, bản thân máy tính không biết mô hình nào là hợp lý. Đây là 
vân để của người sử dụng: cần phải hiểu được bản chất của các khái 
niệm và mô hình xác suất thông kê, thì mới có thể dùng được chúng. 

Mục đích của quyển sách này chính là nhằm giúp bạn đọc hiểu 
đúng bản chất của những khái niệm và phương pháp cơ bản nhất của 
xác suất và thông kê, và qua đó có thể áp dụng được chúng, đi sâu 
tìm hiểu được phương pháp thích hợp cho những tình huống cụ thể. 
Một số điểm mà các tác giả cô gắng đưa vào trong sách này là: 

- Giải thích bản chất các khái niệm một cách trực giác, dễ hiểu 
nhất trong chừng mực có thể, đồng thời đảm bảo độ chặt chế nhất 
định về mặt toán học. 


- Cho nhiều ví dụ và bài tập về những tình huống có thật, với số 
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liệu có thật, nhằm giúp bạn đọc cảm nhận được các ứng dụng thực 
tế của xác suất và thông kê. 

Quyển sách này có 5 chương cộng thêm phần phụ lục. Chương 
1 gồm một sô khái niệm cơ sở của lý thuyết xác suất. Chương này 
không đòi hỏi kiến thức đặc biệt gì về toán, và học sinh phổ thông 
cũng có thể đọc và hiểu được phần lớn. Tuy nhiên, kiến thức của 
Chương 1 không hoàn toàn hiển nhiên, kể cả đối với những người đã 
học đại học. Trong quá trình soạn thảo, các tác giả có đem một số bài 
tập hơi khó của Chương 1 đồ các học sinh đại học và cao học ngành 
toán, và phần lớn họ làm sai! Các bài tập đó không phải là khó về 
mặt toán học (để giải chúng chỉ cần làm vài phép tính sô học đơn 
giản), mà là khó vì chúng chứa đựng những sự tế nhị về bản chất của 
xác suất. Hy vọng rằng, bạn đọc sẽ thấy được những sự tế nhị đó, và 
tránh được các sai lầm mà nhiều người khác hay mắc phải. 

Từ Chương 2 đến Chương 4 của quyển sách là lý thuyết xác suất 
của các biến ngẫu nhiên. Chương 2 là về các biên ngẫu nhiên nhận 
giá trị thực. Chương 3 là về các bộ nhiều biến ngẫu nhiên, hay còn gọi 
là các vector ngẫu nhiên. Chương 4 là về các định lý giới hạn, trong 
đó có định lý giói hạn trung tâm, được coi là định lý quan trọng 
nhất của lý thuyết xác suất và là hòn đá tảng của thống kê toán học. 
Chương 5 của quyển sách là giới thiệu về thống kê. Bạn đọc sẽ tìm 
thấy trong chương này những vân đẻ có thể giải quyết bằng thông 
kê như ước lượng, kiểm định, dự báo, những nguyên tắc cơ bản nhất 
của thông kê, và một số phương pháp thông kê nay đã trỏ thành kinh 
điển. Phụ lục A chứa lời giải của nhiều bài tập trong 4 chương đầu 


.K hd Lễ 
tiên của quyển sách. 
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Để hiểu tốt các vẫn đề được bàn tới trong Chương 2 và các chương 
tiếp theo, bạn đọc cần có một số kiên thức chuẩn bị về giải tích toán 
học, như phép tính vi tích phân và khai triển Taylor-Lagrange, cộng 
với một ít kiến thức về đại sô tuyên tính. Nêu có thêm một ít kiến 
thức về tôpô và giải tích hàm thì càng tốt. Trong sách có đưa ra định 
nghĩa và tính chất của một sô khái niệm toán học cần dùng, ví dụ 
như tích phân Lebesgue trên không gian xác suất, biến đổi Fourier, 
hội tụ yêu, V.V. 

Quyển sách này có thể dùng làm sách giáo khoa hay sách tham 
khảo cho môn xác suất thông kê ở bậc đại học hoặc cao học nhiều 
ngành khác nhau. Sinh viên các ngành không phải toán có thể bỏ qua 
các phần chứng minh các định lý tương đôi phức tạp trong sách, mà 
chỉ cần hiểu đúng phát biểu của các định lý quan trọng nhất và cách 
áp dụng chúng. Các sinh viên ngành toán thì nên tìm hiểu cả cách 
chứng minh các định lý. 

Do khuôn khổ của quyển sách có hạn, nên còn rất nhiều khái niệm 
quan trọng của xác suất và thông kê không xuất hiện trong sách, ví 
dụ như quá trình ngẫu nhiên, phương pháp bootstrap, hồi qui tuyên 
tính suy rộng, v.v.. Hy vọng rằng quyển sách này cung cấp được tương 
đối đầy đủ các kiên thức cơ sở, để bạn đọc có thể hiểu được các tài 
liệu chuyên sâu hơn về xác suất và thông kê khi cần thiết. 

Để biên soạn quyển sách này, các tác giả có tham khảo nhiều sách 
báo liên quan đến xác suất thông kê, và có trích lại nhiều bài tập và 
ví dụ từ các tài liệu đó. Những sách mà các các tác giả tham khảo 
nhiều được liệt kê ỏ phần “Tài liệu tham khảo”. Trong đó có những 


sách “nặng”, có nhiều chứng minh chặt chẽ và khá nặng về toán, 
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ví dụ như quyển “Theory of probability and random processes” của 
Koralev và Sinai [5], và có những sách “nhẹ”, dễ đọc để có thể nắm 
được những ý tưởng chính, nhưng không có chứng minh, tiêu biểu 
như quyển “The cartoon guide to statistics” của Gonick và Smith [2]. 

Các hình minh họa trong quyển sách này chủ yêu được lấy từ 
internet. Chúng tôi tin rằng các hình đó thuộc phạm vi “public” và 
không bị hạn chế về mặt bản quyển, nhưng nêu do sơ suất mà chúng 
tôi sử dụng hình được bảo vệ bởi luật bản quyền mà chưa xin phép, 
thì chúng tôi xin thành thật xin lỗi trước. 

Những bản thảo đầu tiên của quyển sách này có được một sô đồng 
nghiệp, bạn bè và sinh viên đọc và góp ý sửa lỗi và trình bây lại cho 
tốt lên. Các tác giả xin chân thành cảm ơn sự quan tâm và giúp đỡ 
của họ. Tắt nhiên, mọi lỗi còn lại trong sách là thuộc về trách nhiệm 
của các tác giả. Đặc biệt, chúng tôi muôn cảm ơn các bạn Phan Thanh 
Hồng, Nguyễn Tuyết Mai, Nguyễn Thu Ngọc, Trần Quốc Tuấn và Lê 
Văn Tuần, là các thành viên của Trung Tâm Toán Tài Chính và Công 
Nghiệp Hà Nội đã tích cực tham gia giúp chúng tôi soạn phần lời giải 
cho các bài tập. 

Quyển sách này là một sản phẩm của Trung Tâm Toán Tài Chính 
và Công Nghiệp Hà Nội do các tác giả thành lập vào đầu năm 2009, 
được viết với mục đích trước hết là để phục vụ cho nhu cầu của bản 
thân Trung Tâm. Các tác giả hy vọng rằng, quyển sách này sẽ có ích, 
không chỉ cho Trung Tâm, mà còn cho một lượng rất lớn các độc giả 
khác đang hoặc sẽ quan tâm về xác suất và thông kê. 


Hà Nội - Toulouse, 2010 
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Chương 1 
Xác suất là gì 


1.1 Xác suất là gì? 


Hầu như mọi người đều biết đến khái niệm xác suất. Tuy nhiên 
không phải ai cũng hiểu rõ những tính chất cơ bản của nó. Ví dụ như 
sự phụ thuộc vào thông tin của xác suất (mỗi khi có thêm thông tin 
mới thì xác suất thay đổi) hay bị bỏ qua. Và có những bài toán tính 
toán xác suất tưởng chừng như rất đơn giản, nhưng có hơn một nửa 
sô người đã từng học xác suất làm sai khi được hỏi, kể cả các thạc 
sĩ ngành toán. Bỏi vậy, trong chương này, chúng ta sẽ nhân mạnh 
những sự tế nhị trong xác suất, đặc biệt là với xác suất có điều kiện, 
mà bạn đọc cần biết đến, để tránh được những lỗi cơ bản hay gặp 
nhất. 

Trước khi đi vào lý thuyết, có một câu đồ liên quan đến xác suất 


sau đây dành cho bạn đọc. Giả sử có một trò chơi trên TV như sau: 
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có 3 cánh cửa, đằng sau 1 trong 3 cánh cửa đó là 1 món quà lớn, còn 
sau 2 cửa còn lại không có gì. Người chơi được chọn 1 trong 3 cánh 
cửa, nêu chọn đúng cửa có quà thì được nhận quà. Sau khi người 
chơi đã chọn 1 cửa, người hướng dẫn chương trình mỏ một trong hai 
cửa còn lại ra, nhưng sẽ chỉ mỏ cửa không có quà. Sau đó người chơi 
được quyên chọn, hoặc là giữ cái cửa mình chọn ban đầu, hoặc là đổi 
lây cái cửa chưa được mỏ còn lại. Theo bạn thì người chơi nên chọn 
phương án nào? Vì sao ? Hãy thử nghĩ về nó một chút trước khi tiếp 


tục đọc. 


1.1.1 Xác suất của một sự kiện 


Xác suất của một sự kiện (hay biến có, tình huống giả định) là 
khả năng xảy ra sự kiện (hay biến có, tình huống giả định) đó, được 
đánh giá dưới dạng một số thực nằm giữa 0 và 1. 

Khi một sự kiện không thể xảy ra thì xác suất của nó bằng 0. Ví 
dụ như xác suất của sự kiện “có người sống trên sao Thổ” bằng 0. 

Khi một sự kiện chắc chắn đã hoặc sẽ xảy ra thì xác suất của nó 
bằng 1 (hay còn viết là 100%). Ví dụ như sự kiện “tôi được sinh ra từ 
trong bụng mẹ” có xác suất bằng 1. 

Khi một sự kiện có thể xảy ra và cũng có thể không xảy ra, và 
chúng ta không biết nó có chắn chắn xảy ra hay không, thì chúng ta 
có thể coi xác suất của nó lớn hơn 0 và nhỏ hơn 1. Sự kiện nào được 
coi là càng dễ xảy ra thì có xác suât càng lớn (càng gần 1), và ngược 
lại nêu càng khó xảy ra thì xác suất càng nhỏ (càng gần 0). Ví dụ tôi 


^ xa... A + ^ -Ã lả‹ Z .3< ^ z r 
mua một vé xổ sô. Tôi không biệt nó sẽ trúng giải hay không, có thể 
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có mà cũng có thể không. Nếu như cứ 100 vé xổ số chỉ có 1 vé trúng 
giải, thì tôi sẽ coi xác suất trúng giải của vé của tôi là 1%. Con số 1% 
ở đây chính là tần suất, hay tỷ lệ trúng giải của các vé xổ số: nó bằng 
sô các vé trúng giải chia cho tổng số các vé. 

Không những chỉ các sự kiện trong tương lai, mà cả các sự kiện 
trong quá khứ, mà chúng ta thiếu thông tin để có thể biết chắc là 
chúng đã thực sự xảy ra hay không, thì chúng ta vẫn có thể gán cho 
các sự kiện đó một xác suất nào đó, ứng với độ tin tưởng của chúng 
ta về việc sự kiện đó đã thực sự xảy ra hay không. Ví dụ như, nữ 
hoàng Cleopatra của Ai Cập có tự tử bằng cách để cho rắn độc cắn 
không ? Đây là một giả thuyết, mà theo các nhà sử học thì có nhiều 


khả năng xảy ra, nhưng không chắc chắn. 


1.1.2 Ba tiên để về sự nhật quán của xác suât 


Tiên để 1. Như đã viết phía trên, nếu 4 là một sự kiện (giả định) 
và ký hiệu P(.4) là xác suất của 4A thì 


0< P(4) <1 (1.1) 


Tiên để 2. Nếu 4 là một sự kiện, và ký hiệu 4 là sự kiện phủ định 
của A thì 
P(A) + P(3 = 1 (12) 


Ý nghĩa triết học của tiên để 2 tương đối hiển nhiên: Trong hai 
sự kiện “4” và “phủ định của A” có 1 và chỉ 1 sự kiện xảy ra. Nếu 
“4” càng có nhiều khả năng xả ra thì “phủ định của 4” càng có ít khả 


năng xảy ra, và ngược lại. 
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Ví dụ 1.1. Một học sinh đi thi vào một trường đại học. Nêu xác suất 
thi đỗ là 80% thì xác suất thi trượt là 20% (= 100% - 80%), chứ 
không thể là 30%, vì nêu xác suất thi đỗ là 80% và xác suất thi trượt 
là 30% thì không nhất quán. 

Ví dụ 1.2. Tôi tung một đồng tiền, khi nó rơi xuống thì có thể hiện 
mặt sắp hoặc mặt ngửa. Tổng xác suất của hai sự kiện “mặt sắp” và 
“mặt ngửa” bằng 1. Nếu tôi không có lý do đặc biệt gì để nghĩ rằng 
mặt nào đễ hiện lên hơn mặt nào, thì tôi coi rằng hai mặt có xác suất 
hiện lên bằng nhau. Khi đó sự kiện “mặt ngửa” có xác suất bằng sự 


kiện “mặt sắp” và bằng 1/2. 
Tiên để 3. Với hai sự kiện 4 và 5, ta sẽ ký hiệu sự kiện “cả 4A và 
B đều xảy ra” bằng An Ø và sự kiện “ít nhất một trong hai sự kiện 
A hoặc Ð xảy ra” bằng AU Ö. Khi đó nêu hai sự kiện A và ÿ không 
thể cùng xảy ra, thì xác suất của sự kiện “xảy ra 4 hoặc 5” bằng tổng 
các xác suất của A4 và của Ö: 
P(AnB) =0 > P(AU B) = P(A) + P(B) (1.3) 
Ví dụ 1.3. Một học sinh được cho điểm một bài kiểm tra. Có thể được 
7 điểm, có thể được 8 điểm, hoặc có thể được điểm khác, nhưng 
không thể vừa được 7 điểm vừa được 8 điểm. Bởi vậy P((7đ)U(8đ)) = 
P(ï4) + P(8d) 
Tiên để 3 có thể phát biểu một cách tổng quát hơn như sau: 
Tiên để 3'. Nếu X và Y là hai sự kiện bất kỳ thì 
P(AU PB) = P(1) + P(B) - P(An ðB). (1.4) 


Bài tập 1.1. Chứng minh rằng tiên để 3 tương đương với tiên để 3'. 
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1.1.3. Xác suất phụ thuộc vào những gì ? 


Xác suất của một sự kiện không nhất thiết phải là một hằng số, 
mà nó có thể thay đổi, phụ thuộc vào nhiều yêu tố. (Từ sự kiện ö đây 
hiểu theo nghĩa thông thường, chứ không phải theo nghĩa “một tập 
hợp trong một không gian xác suất với 1 độ đo xác suất đã cô định” 
trong mô hình toán học) 


Xác suất thay đổi theo thời gian. Ví dụ, ông Obama được bầu làm 





tống thông Mỹ vào tháng 11/2008. Từ trước lúc bầu cử mấy tháng, 
có sự cạnh tranh ác liệt giữa ông ta và đôi thủ chính của ông ta là 
ông McCain, và một người quan sát bên ngoài có thể nhận định là hai 
ông có khả năng được bầu cử ngang nhau (tức là xác suất được bầu 
của mỗi ông quãng 50%). Nhưng khi kết quả bầu cử được công bố 
trọn vẹn, thì xác suất được bầu của Obama chuyển thành 100% (tức 
là ông ta đã chắc chắn được bầu). Trước đó 1 năm, ông Obama là 
một người chưa được nhiều người biết đến và còn phải tranh cử với 
bà Clinton và các ứng cử viên khác trong Đảng của mình, và khi đó, 
đối với quan sát viên bên ngoài, xác suất được bầu làm tổng thông 
của Obama không phải 100%, cũng không phải 50%, mà nhỏ hơn 
thế nhiều. 


Xác suất phụ thuộc vào thông tin. Lấy bài toán đố về trò chơi trên 





TV viết phía trên làm ví dụ. Gọi tên cửa mà người chơi chọn lúc đầu 
là A, cửa không có quà mà người hướng dẫn chương trình mỏ ra là 
B, và cửa còn lại là Ơ. Vào thời điểm ban đầu, không có thông tin gì 
về cửa nào phía sau có quà, thông tin duy nhất là 1 trong 3 cửa có 


` ^ Z ` r h ` z -À « Z ` 
quà. Không có cơ sở gì để cho răng cửa nào có nhiêu khả năng có quà 
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hơn cửa nào, bởi vậy vào thời điểm ban đầu ta coi P(A) = P(B) = 
P(C) = 1/3. Nhưng sau khi cửa được mỏ ra, thì ta có thêm một 
thông tin mới, là cửa Ö không có quà. Như vậy thông tin mới này 
làm thay đổi xác suất của ở: bây giờ ta có P() = 0. Không chỉ xác 
suất của Ö thay đổi, mà tổng xác suất của 4 và Œ bây giờ cũng thay 
đổi: P(A) + P(C) = 1 thay vì bằng 2⁄3 như trước. Như vậy ít ra một 
trong hai sô P(4) hoặc P(C) thay đổi, hoặc là cả hai. Xác suất P(4) 
có thay đổi vì thông tin mới này không ? Câu trả lời là không (Giải 
thích vì sao không ?). Chỉ có (C) là thay đổi: sau khi người hướng 
dẫn chương trình mỏ cửa Ö, thì ta có (4) = 1/3 và P(C) = 2/3. 
Như vậy người chơi nên đổi cửa A lẫy cửa Œ thì đễ thắng hơn. Để 
thấy rõ hơn việc cánh cửa còn lại có nhiều khả năng có quà hơn là 
cánh cửa mà người chơi chọn ban đầu, thay vì chỉ có 3 cửa, ta hãy 
hình dung có 100 cửa. Sau khi bạn chọn 1 cửa, người dẫn chương 
trình mỏ 98 cửa không có quà trong sô 99 cửa còn lại, chỉ để lại 1 
cửa thôi. Khi đó, nêu được đổi, bạn sẽ giữ nguyên cửa của mình, hay 
là đổi lây cái cửa còn lại kia ? 


Xác suât phụ thuộc vào điều kiện. Chúng ta sẽ bàn về xác suât có 





điều kiện và công thức tính xác suất có điều kiện ở một phần sau. 
Điều đáng chú ý ở đây là, mọi xác suất đều có thể coi là xác suất có 
điều kiện, và đều phụ thuộc vào những điều kiện nào đó, có thể được 
nói ra hoặc không nói ra (điều kiện hiểu ngầm). Ví dụ, khi chúng ta 
nói “khi tung cái xúc sắc S, xác suất để hiện lên mặt có 3 chắm là 
1/6”, chúng ta hiểu ngầm S là một cái xúc sắc đều đặn, các mặt đều 
có khả năng xuất hiện như nhau. Nhưng nêu S là một cái xúc sắc 


méo mó, nhẹ bên này nặng bên nọ (điều kiện khác đi), thì hoàn toàn 
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có thể là xác suắt để khi tung hiện lên mặt có 3 chấm sẽ khác 1/6. 
Một ví dụ khác là xác suất xảy ra tai nạn khi lái ô tô: khi người lái 
xe khoe mạnh tỉnh táo, thì xác suất xảy ra tai nạn thấp, còn khi vẫn 
người lái đó bị say rượu hoặc buồn ngủ gật, thì xác suất xảy ra tai 
nạn cao hơn, v.v. Khi chúng ta biết thêm một điều kiện mới, tức là có 
thêm một thông tin mới, bởi vậy sự phụ thuộc vào điều kiện của xác 
suất cũng có thể coi là sự phụ thuộc vào thông tỉn. 


Xác suất phụ thuộc vào người quan sát, hay là tính chủ quan của 





xác suất. Cùng là một sự kiện, nhưng hai người quan sát khác nhau có 
thể tính ra hai kết quả xác suất khác nhau, và cả hai đều “có lý”, bởi 
vì họ dựa trên những thông tin và phân tích khác nhau. Ví dụ như, 
có chuyên gia tài chính đánh giá rằng cổ phiếu của hãng Vinamilk 
có nhiều khả năng đi lên trong thời gian tới, trong khi lại có chuyên 
gia tài chính khác đánh giá rằng cổ phiếu của hãng đó có nhiều khả 
năng đi xuống ít khả năng đi lên trong thời gian tới. Quay lại trò chơi 
truyền hình: với người chơi thì P(4) = 1/3, nhưng đôi với người dẫn 
chương trình thì P(44) không phải là 1⁄3, mà là 0 hoặc 1, vì người đó 
biết ở đằng sau cửa 4A có quà hay không. 


1.1.4 Tính xác suất bằng thông kê 


Đôi với những hiện tượng xảy ra nhiều lần, thì người ta có thể 
dùng thống kê để tính xác suất của sự kiện xảy ra hiện tượng đó. 
Công thức sẽ là 


#000 


= Nhoïa)) (1.5) 
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Ở đây N(†oial) là tổng số các trường hợp được khảo sát, và W(4) là 
sô các trường hợp được khảo sát thỏa mãn điều kiện xảy ra A. 

Cơ sở toán học cho việc dùng thông kê để tính xác suất, là luật số 
lớn và các định lý giới hạn, mà chúng ta sẽ tìm hiểu ở phía sau trong 


sách này. 


Ví dụ 1.4. Có một sô số liệu sau đây về tai tạn ô tô và máy bay. Trong 
những năm 1989-1999, trên toàn thế giới, trung bình mỗi năm có 
khoảng 18 triệu chuyên bay, 24 tai nạn máy bay chết người, và 750 
người chết trong tai nạn máy bay. Cũng trong khoảng thời gian đó, 
ở nước Pháp, trung bình mỗi năm có khoảng 8000 người chết vì tai 
nạn ô tô, trên tổng sô 60 triệu dân. Từ các số liệu này, chúng ta có 
thể tính: Xác suất để một người ở Pháp bị chết vì tai nạn ô tô trong 
một năm là 8000/60000000 = 0,0133%. Xác suất để đi một chuyên 
bay gặp tai nạn chết người là 24/18000000 = 0,000133%, chỉ bằng 
1/100 xác suất bị chết vì tai nạn ô tô trong 1 năm. Nếu một người 
một năm bay 20 chuyền, thì xác suất bị chết vì tai nạn máy bay trong 
năm bằng quãng 20 x 0,000133% = 0,00266%, tức là chỉ bằng 1/5 


xác suât bị chêt vì tai nạn ô tô trong năm. 


Ví dụ 1.5. Ông Gregor Mendel (1822-1884) là một tu sĩ người Áo 
(Austria) thích nghiên cứu sinh vật. Ông ta trồng nhiều giỗng đậu 
khác nhau trong vườn của tu viện, và ghi chép tỉ mẩn về các tính 
chất đi truyền và lai giỗng của chúng. Năm 1866 Mendel công bố 
một bài báo về các hiện tượng mà ông ta qua sát được, và lý thuyết 
của ông ta để giải thích các hiện tượng. Một trong những quan sát 
trong đó là về màu sắc: Khi lai đậu hạt vàng với đậu hạt xanh (thế 


hệ thứ nhất) thì các cây lai (thê hệ thứ hai) đều ra đậu hạt vàng, 
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nhưng tiếp tục lai các cây đậu hạt vàng thế hệ thứ hai này với nhau, 
thì đến thế hệ thứ ba xác suất ra đậu hạt xanh là 1⁄4. Con số 1⁄4 


P(Y) = 1⁄2 ` X P(y) = 1/2 
Y y 


P(YY)=1/⁄4 | P(Yy)=1/4 


P(Y) = 1/2 


@ 
`» P(Yy)=1⁄4 | P(yy)=1⁄4 
Py)=12  ” © kề” 





Hình 1.1: Lý thuyết di truyền của Mendel và xác suất trong lai giông 


đậu 


là do Mendel thống kê thấy tỷ lệ đậu hạt xanh ỏ thế hệ thứ ba gần 
bằng 1⁄4. Từ đó Mendel xây dựng lý thuyết di truyền để giải thích 
hiện tượng này: màu của đậu được xác định bởi 1 gen, và gen gồm 
có hai phần. Thê hệ đầu tiên, cây đậu hạt vàng có gen thuần chủng 
“VY” còn hạt xanh có gen “yy” (tên gọi “Y” và “y” ỏ đây là tùy tiện). 
Khi lai nhau, thì một nửa gen của cây này ghép với một nửa gen của 
cây kia để tạo thành gen của cây con. Các cây thê hệ thứ hai đều có 


gen “Yy”, và màu hạt của gen “Yy” cũng là vàng. Đến thế hệ thứ ba, 
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khi lai “Yy” với “Yy” thì có 4 khả năng xảy ra : “YY”, “Yy”, “yY” và 
“vy”. (“Yy” và “yY” là giống nhau về gen, nhưng viết như vậy là để 
phân biệt là phần “Y” đến từ cây thứ nhất hay cây thứ hai trong 2 cây 
lai với nhau). Về lý thuyết, có thể coi 4 khả năng trên là có xác suất 
xảy ra bằng nhau. Bởi vậy xác suât để cây thế hệ thứ ba có gen “yy” 
(hạt màu xanh) là 1⁄4. Trong rất nhiều năm sau khi công bố, công 
trình của Mendel không được các nhà khoa học khác quan tâm đến, 


nhưng ngày nay Mendel được coi là cha tổ của di truyền học. 


1.2_ Mô hình toán học của xác suât 


1.2.1 Không gian xác suất 


Không gian xác suất là một khái niệm toán học nhằm trừu tượng 


hóa 3 tiên đề phía trên về sự nhât quán của xác suât. 


Định nghĩa 1.1. Một không gian xác suất là một tập hợp ©, cùng 
với: 

1) Một họ S các tập con của ©, thỏa mãn các tính chất sau: Q € ®, 
và nếu A, B e S thì AU Be$, AnBe Svà Ä:=9\Ae @®. Một họ 
như vậy được gọi là một đại số các tập con của ©. Trong trường hợp 
© là một tập có vô hạn các phần tử, thì chúng ta sẽ đòi hỏi thêm điều 
kiện sau: Nếu A;,¡ = 1,2,3,... là một dãy vô hạn các phần tử của ®, 
thì hợp (Jƒ”; A¡ cũng thuộc họ S. Với thêm điều kiện này, S được gọi 
là một sigma-đại số. Các phần tử của S được gọi là là tập hợp con đo 
được của không gian xác suắt. 


2) Một hàm số thực P : S —› IR trên S, được gọi là phân bỗ xác 
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suât hay độ đo xác suât trên ©, thỏa mãn các tính chất sau: 


Ù) Với mọi A € ®, ta có 


0< P(4) <1. (1.6) 
ïÙ 
P(0) =0, P(O) = 1. (1.7) 
ii) Nếu An B = IJ thì 
P(AUB) = P(A) + P(Đ). (1.8) 


Tổng quát hơn, nếu A;,¡ = 1,2,3,... là một dãy các tập hợp con đo 
được không giao nhau thì 


P{J42 => P(A). (1.9) 


Ghỉ chú 1.1. 1) Không gian xác suất © còn được gọi là không gian 
mẫu (sample space), và nó là mô hình toán học trừu tượng cho vẫn 
để tính toán xác suất đang được quan tâm. Mỗi phần tử của © có thể 
được gọi là một sự kiện thành phần (elementary event). Nêu 4 là 
một phần tử của © thì ta cũng có thể viết P(4) và hiểu là P({A}), 
trong đó {4} là tập con của © chứa duy nhất một phần tử A. Mỗi sự 
kiện là một tập con của ©, và có thể gồm nhiều (thậm chí vô hạn) sự 
kiện thành phần. Không nhất thiết tập con nào của © cũng đo được 
(tức là nằm trong họ S), và chúng ta sẽ chỉ quan tâm đến những tập 
con đo được. 

2) Trong toán học, một đại số là một tập hợp với các phép tính cộng, 
trừ, và phép nhân (không nhất thiết phải có phép chia). Các tính chất 


của họ Š trong định nghĩa không gian xác suất khiến nó là một đại 
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Hình 1.2: A. N. Kolmogorov 


sô theo nghĩa như vậy: Phần tử 0 trong ® là tập rỗng, phần tử đơn vị 
trong ©S là tập O, phép nhân trong SŠ là phép giao: A x ö := Añ\?, và 
phép cộng trong Š là phép 1+ := (AU)\(418) = (1\8)U(Đ\4). 
Đại số này có số đặc trưng bằng 2, tức là 24 = A+ A = 0 với mọi 
A (và bởi vậy phép cộng và phép trừ chẳng qua là một). Chúng ta 
muôn 6® là một đại số chính là để cho việc làm các phép tính số học 
với xác suất được thuận tiện. 

3) Đẳng thức được gọi là tính chất sigma của xác suất. Trong 
toán, chữ cái hy lạp sigma thường dùng để ký hiệu tổng, với hữu hạn 
hay vô hạn các thành phần. Tính chất sigma là tính chắt cộng tính vô 
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hạn: khi có một dãy vô hạn các tập con không giao nhau, xác suất 
của hợp của chúng cũng bằng tổng vô hạn của các xác suất của các 
tập con. Tính chất sigma chính là tính chất cho phép chúng ta lắy giới 
hạn trong việc tính toán xác suất. Chẳng hạn như, nếu Ai C AsC... 
là một dãy tăng các tập con của ©, và A = lim„_›s 4„ = J1 An, 
thì ta có thể viết P(A) = lim„;se P(A„), bởi vì 


P(A) = P(AiU (Ji \ An) = PÚN) +Ÿ) P(Az+i \ An) 


n=l1 m=I1 
=P(A)+ lim À ˆ P(A;+t\4;) = P(1)+ lim (P(Az+i)—P(4)) 
k=1l 


(1.10) 


Phép toán lấy giới hạn là phép toán cơ bản nhất của giải tích toán 
học, và mọi phép toán giải tích khác như đạo hàm, tích phân, v.v. 
đều có thể được định nghĩa qua phép lấy giới hạn. Bởi vậy, tính chất 
sigma chính là tính chất cho phép chúng ta sử dụng giải tích toán 
học trong việc nghiên cứu xác suất. Các nhà toán học cổ điển trong 
thế kỷ 18 và 19 đã dùng các phép tính vi tích phân trong xác suất, 
tức là đã dùng tính chất sigma. VỀ mặt trực giác, tính chất sigma 
là mỏ rộng hiển nhiên của tính chất cộng tính (1.8). Tuy nhiên, nói 
một cách chặt chẽ toán học, đẳng thức không suy ra được từ 
đẳng thức (1.8), và phải được coi là một tiên để trong xác suất. Tiên 
để này được đưa ra bỏi nhà toán học người Nga Andrei Nikolaievitch 
Kolmogorov (1903-1987), người xây dựng nên tảng cho lý thuyết xác 


suât hiện đại. 


Bài tập 1.2. Chứng minh rằng, với 3 tập con 4, ö,C (đo được) bất 
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kỳ trong một không gian xác suất, ta có: 
P(AU BUC) = P(A) + P(B) + P(C) - P(An PB) 


— P(BnC)— P(CnA)+ P(AnBnC). 


1.2.2 Phân bố xác suất Bernoulli 


€XANN( 
JI0M0©):) 





Hình 1.3: Bia mộ của “mathematicus incomparabilis” J. Bernoulli ở 


Basel 


Không gian xác suất đơn giản nhất mà không tầm thường là 
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không gian sinh bởi đúng 1 sự kiện 4 và phủ định 4 của nó: Q = 
{A, A}. Phân bố xác suất trên © trong trường hợp này được xác 
định bởi đúng một số p = P(.4). Phân bố này được gọi là phân bố 
Bernoulli, theo tên của Jacob Bernoulli (1654-1705), một nhà toán 


học người Thụy Sĩ. 


Ví dụ 1.6. Một vận động viên bắn súng, nhằm vào đích bắn 1 phát 
súng. Có hai sự kiện đối lập nhau có thể xảy ra là A = “bắn trúng” 
và 4A = “bắn trượt. Giả sử xác suất bắn trúng là 95%. Khi đó ta 
có không gian xác suất 9 = {A, 4} với phân bố xác suất Bernoulli 
với p = P(A) = 95%. Xác suất của 4 (sự kiện “bắn trượt”) bằng 
1—-p=1- 95% = 59%. 


Ví dụ 1.7. (Cái kim của Buffon). Bá tước George-Louis Leclerc de 
Buffon (1707-1788) là một nhà khoa học tự nhiên lón, nghiên cứu 
về thực vật, động vật, trái đất, lịch sử tự nhiên, v.v. Thời trẻ, ông ta 
đặc biệt thích toán học, và vào năm 1733 có trình lên Viện Hàm lâm 
Pháp một công trình nhan để “Sur le jeu du franc-carreau” (về trò 
chơi franc-carreau, là một trò chơi cá cược thịnh hành thời đó: người 
ta tung 1 đồng tiền vào 1 ô vuông và cá cược nhau xem vị trí nó 
sẽ nằm chỗ nào). Trong công trình này, các phép toán vi tích phân 
được Buffon đưa vào lý thuyết xác suất. Buffon còn là người nghĩ ra 
phương pháp sau đây để tính số z: Lẫy 1 tờ giấy to và 1 cái kim. Kẻ 
các đường thẳng song song trên tờ giấy, cách đều nhau một khoảng 
cách đúng bằng chiều dài của cái kim. Tung cái kim một cách ngẫu 
nhiên lên trên tờ giây. Có hai khả năng xảy ra: 1) kim nằm đè lên 1 
đường thẳng trong các đường được kẻ; 2) kim nằm lọt vào giữa hai 
đường thẳng. Buffon tính ra rằng, sự kiện “kim nằm đè lên 1 đường 
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thẳng” có xác suất bằng 1/z. Như vậy hai sự kiện “nằm đè lên 1 
đường thẳng” và “nằm lọt vào giữa hai đường thẳng” hợp thành một 
không gian xác suất Bernoulli với p = 1/z. Tung kim ø lần, và gọi số 
lần kim nằm đè lên 1 đường thẳng trong số ø lần tung là b„. Khi đó, 
theo luật số lớn, b„/n tiễn tới p = 1/z khi ø tiên tới vô cùng. Bỏi vậy 
để xâp xỉ tính sô z, có thể làm như sau: tung kim thật nhiều lần, đếm 
sô lần kim đè lên trên 1 đường thẳng, rồi lấy số lần tung chia cho số 
đó. Phương pháp tung kim của Bufon chính là tiền thân của phương 
pháp Monte-Carlo trong toán học. 


1.2.3 Phân bố xác suất đều 


Định nghĩa 1.2. Phân bố xác suắt P trên không gian xác suắt hữu hạn 
với N phân tử Q = {A...., An} được gọi là phân bố xác suất đều 
nếu như P(A) =... = P(AN) = 1/N. 


Tất nhiên, mỗi không gian xác suật với một số hữu hạn các phần 

tử chỉ có duy nhất một phân bố xác suất đều trên đó. 
Ghi chú 1.2. Khái niệm phân bố đều không mỏ rộng được lên các 
không gian xác suất có sô phần tử là vô hạn và đếm được, bởi vì 1 
chia cho vô cùng bằng 0, nhưng mà tổng của một chuỗi vô hạn sô 0 
vẫn bằng 0 chứ không bằng 1. 

Các phân bố xác suất đều là các phân bố quan trọng hay gặp trong 
thực tế. Lý do chính dẫn đến phân bô xác suất đều là tính đối xứng, 
cân bằng, hay hoán vị được của các sự kiện thành phần. 

Ví dụ 1.8. Lây một bộ bài tú lơ khơ mới có 52 quân, đặt nằm sắp. Khi 


đó xác suất để rút một con bài trong đó ra một cách tùy ý được con 
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N 


E ` 
ván 


IzÖ7 





Hình 1.4: Tượng của Buffon ở Jardin des Plantes, Paris 


“2 Cơ” (hay bất kỳ “số” nào khác) bằng 1/52. Vì sao vậy? Vì các con 
bài khi đặt nằm sắp thì giỗng hệt nhau, không thể phân biệt được 
con nào với con nào, số nào cũng có thể được viết dưới bắt kỳ con 
bài nào, và nêu chuyển chỗ 2 con bài trong bộ bài với nhau thì trông 
bộ bài vẫn hệt như cũ (đây chính là tính “đôi xứng”, “hoán vị được”). 
Người quan sát không có thông tin gì để có thể nhận biết được số 


31 


Chương 1. Xác suắt là gì 


nào đễ nằm ở phía dưới con bài nào hơn trong các con bài đăng nằm 
sắp, và khi đó thì phải coi rằng xác suất của các sô là như nhau. Nếu 
như có những con bài “được đánh dấu” (chơi ăn gian), thì tất nhiên 
đối với người biết chuyện đánh dâu, không còn phân bố xác suất đều 


nưa. 


Công thức để tính xác suất của một sự kiện trong một phân bố 
xác suất đều rất đơn giản: Nêu như không gian xác suất © với phân 
bố xác suất đều có phần tử, và sự kiện được biểu diễn bằng một 
tập con A của © với k phần tử, thì xác suất của A bằng k/N: 

A k 

P(A) = mm =% (1.11) 
Ví dụ 1.9. Giả sử một gia đình có 3 con. Khi đó xác suất để gia đình 
đó có 2 con trai 1 con gái là bao nhiêu. Chúng ta có thể lập mô hình 
xác suất với 4 sự kiện thành phần: 3 trai, 2 trai 1 gái, 1 trai 2 gái, 3 
gái. Thế nhưng 4 sự kiện thành phần đó không “cân bằng” với nhau, 
và bởi vậy không kết luận được rằng xác suất của “2 trai 1 gái” là 
1⁄4. Để có không gian xác suất với phân bô đều, ta có thể lập mô 
hình xác suất với 8 sự kiện thành phần như sau: 

Q=f?T†TUTTŒG,T€1;TGG,Gr1;gGrG;GGT,6GBI: 

(Chẳng hạn, GG7 có nghĩa là con thứ nhất là con gái, con thứ hai là 
con gái, con thứ ba là con trai). Sự kiện “2 trai mội gái” là hợp của 
3 sự kiện thành phần trong mô hình xác suất này: 7T7GŒ,TGT, GTT. 
Như vậy xác suất của nó bằng 3/8. 
Bài tập 1.3. Có một nhóm ø bạn, trong đó có hai bạn Vôva và Lily. 
Xếp các bạn trong nhóm thành một hàng dọc một cách ngẫu nhiên. 


Hỏi xác suất để Vôva ở vị trí ngay sau Lily trong hàng là bao nhiêu? 
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Bài tập 1.4. Một nhóm có 5 người, với 5 tên khác nhau. Mỗi người 
viết tên của một người khác trong nhóm một cách ngẫu nhiên vào 


giây. Tính xác suất để có 2 người trong nhóm viết tên của nhau. 


Bài tập 1.5. Giả sử trong một giải bóng đá đấu loại trực tiếp có 8 đội 
A,B,C€,D, E, E G, H tham gia: vòng 1 có 4 trận, vòng 2 có 2 trận, 
vòng 3 (vòng cuối cùng) có 1 trận. Giá sử xác suất để mỗi đội thắng 
mỗi trận đều là 1⁄2, và các đội bắt thăm để xem đội nào đấu với đội 
nào ở vòng đầu, các vòng sau thì được xếp theo kết quả vòng trước. 


Tính xác suất để đội A có đấu với đội B trong giải. 


1.2.4 Mô hình xác suât với vô hạn các sự kiện 


Mọi vẫn để xuất phát từ thực tế đều chỉ có một sô hữu hạn các 
sự kiện thành phần. Nhưng khi mà số sự kiện thành phần đó lón, thì 
người ta có thể dùng các mô hình toán học với vô hạn phần tử để 


biểu diễn, cho dễ hình dung và tiện tính toán. 


Ví dụ 1.10. Nêu ta quan tâm đến lượng khách hàng trong một ngày 
của một siêu thị, thì có thể dùng tập hợp các sô nguyên không âm 
Z., làm không gian xác suất: mỗi số n c Z.; ứng với một sự kiện “số 
khách trong ngày là ø”. Vẫn để tiếp theo là chọn phân bố xác suất 
nào trên Z.. cho hợp lý (phản ánh khá chính xác thực tế xảy ra, đồng 
thời lại tiện cho việc tính toán)? Ví dụ người ta có thể dùng phân 
bố xác suất sau trên Z;, gọi là phân bố Poisson (đọc là Poa- Đội 

TM) E- ST với mọi w € Z/,. (Chú ý rằng Š ` P(n) N ` ă- ¬= 

„ 


Ta ›» = e-^e^ = 1, như vậy các tiên để về xác suất được thỏa 
T: 
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mãn). Phân bố Poisson ứng với hai giả thuyết: lượng khách hàng 
trung bình trong một ngày là A, và các khách hàng đi đến siêu thị 
một cách ngẫu nhiên và độc lập với nhau. Chúng ta sẽ tìm hiểu kỹ 
hơn về phân bố Poisson trong những phần sau. 

Ví dụ 1.11. Ta biết rằng có một xe ô tô X đang đậu ỏ trên một khúc 
phố Z, và ta quan tâm đến vị trí của X trên phô đó. Ta có thể mô 
hình X bằng 1 điểm, Z bằng một đoạn thẳng và lây đoạn thẳng đó 
làm không gian xác suất: Q = [a, b|, a,b € TR, a < b. (Mô hình xác suất 
liên tục này có số phần tử là continuum, không đêm được). Sự kiện 
“ô tô đỗ ở chỗ nào đó trên khúc phô” chuyển thành sự kiện “điểm z 
nằm trong một đoạn thẳng con nào đó trên đoạn thẳng © = [a, Ù]”. 
Ta có thể chọn phân bồ xác suất đều trên © = {a,b] theo nghĩa sau: 
xác suât của mỗi đoạn thẳng con trên © tỷ lệ thuận với độ dài của 
đoạn thẳng con đó, và bằng chiều dài của đoạn thẳng con đó chia 
cho chiều dài của ©: P([c, đ]) = (d— e)/(b— a). 


1.2.5 Ánh xạ giữa các không gian xác suất 


Cùng một vẫn đề tính toán xác suất, ta có thể lập nhiều mô hình 
không gian xác suất khác nhau. Ví dụ, mô hình xác suất đơn giản 
nhất cho sự kiện “bị Ôm” sẽ là mô hình Bernoulli O¡ = {%, H} với 
2 sự kiện S = “bị ôm” (sick) và H — “không bị ôm” (healthy). Như 
ta cũng có thể chia nhỏ sự kiện bị ốm ra thành rất nhiều sự kiện 
con, ví dụ như “ốm bệnh A”, “ốm bệnh B”, “ốm cả bệnh A lẫn bệnh 
B”, v.v. và sự kiện “không bị ôm” cũng có thể chia thành nhiều sự 
kiện con, ví dụ như “rất khỏe”, “không ốm nhưng mà yếu”, v.v. Khi 


chia nhỏ như vậy, ta được mô hình xác suất với một không gian xác 
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suất 9a = {91, Ss,..., Hị, Hạ,...} với nhiều phần tử hơn. Hai không 
gian đó liên quan với nhau bởi một ánh xạ ó : ©¿ —> ©\, Ø(5;) = 
Š.0(01,)=:H, Tất nhiên, khi ta chia nhỏ sự kiện 5 ra thành nhiều sự 
kiện (không giao nhau) %¡, S;,..., thì không phải vì thế mà xác suất 


# s L@ Lầ Lầ . z, 
của nó thay đổi. Nói cách khác, ta phải có 


P(8) = P(4~'(8)) = P(U¡6) = 3ˆ P($) (1.12) 


Tính chât trên là tính chât bảo toàn xác suât của ánh xạ ø. Nói 


một cách tổng quát, ta có định nghĩa sau: 


Định nghĩa 1.3. Một ánh xạ ọ : (O1, P) —> (Q¿, Đ›) từ một không 
gian xác suắt (O\., P¡) vào một không gian xác suắt (Qa, P›) được gọi 
là một ánh xạ bảo toàn xác suất nếu nó bảo toàn độ đo xác suắt, có 


nghĩa là với mọi tập con B C ©s đo được, ta có 
P(ø~'(B)) = Pa(B) (1.13) 


Nếu hơn nữa, ¿ là một song ánh modulo những tập có xác suắt bằng 
0, có nghĩa là tôn tại các tập con A € ©, B € ©¿ sao cho Pị(A) = 
Đ›(B) = 0và ó: ©¡\ A — ©¿ \_B là song ánh bảo toàn xác suắt), thì 
ở được gọi là một đẳng cầu xác suất, và ta nói rằng (O1, P¡) đẳng 


câu xác suất với (Ôa, P›). 


Ví dụ 1.12. Đặt 4 bạn AI, Ben, Cam, Don ngôi vào 4 ghế A,B,G,D 
một cách hoàn toàn ngẫu nhiên. Tính xác suất để AI được đặt ngôi 
vào ghế A. Có 4 ghế, và xác suất để AI ngồi vào mỗi nghề trong 4 ghế 
đó coi là bằng nhau (vì không có cớ gì để coi là khác nhau), bởi vậy 


xác suất để AI ngồi vào ghế A là 1⁄4. Nhưng cũng có thể lý luận tỷ 
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mẩn hơn như sau: có tổng cộng 4! = 24 cách đặt 4 bạn ngồi vào 4 
ghế, trong đó có 3! = 6 cách có AI ngồi vào ghế A. Bởi vậy xác suất 
để AI ngồi vào ghế A là 6/24 = 4. Hai cách giải cho cùng một đáp 
sô, nhưng sử dụng hai không gian xác suất khác nhau: không gian 
thứ nhất có 4 phần tử, còn không gian thứ hai có 24 phần tử. Có 
một phép chiều tự nhiên bảo toàn xác suất từ không gian thứ hai lên 


không gian thứ nhất. 


Định lý 1.1. Nếu (Ó\, Pu) là một không gian xác suắt, và ó: Ôị — ©¿ 
là một ánh xạ tùy ý, thì tồn tại một độ đo xác suắt P› trên ©s, sao cho 


ánh xạ ở: (O\, Pị) —> (Qạ, Pa) là ánh xạ bảo toàn xác suắt. 


Chứng minh. Có thể xây dựng ?› theo công thức sau: với mỗi tập 
con ö C ©¿, nếu tổn tại P¡(ø~1!(B)) thì ta đặt 


b(B) := P(ø¿~1(B)) (1.14) 


Độ đo xác suất P› định nghĩa theo công thức trên được gọi là push- 


forward của P¡ qua ánh xạ øó, hay còn gọi là phân bô xác suât cảm 











sinh từ ¡ qua ánh xạ ø. 





Bài tập 1.6. Chứng minh rằng quan hệ đẳng câu xác suất giữa các 


không gian xác suất là một quan hệ tương đương. 


1.2.6 Tích của các không gian xác suất 


Nếu A/ và N là hai tập hợp, thì tích của chúng (hay còn gọi là 
tích trực tiếp, hay tích Descartes), ký hiệu là A7 x N, là tập hợp các 
cặp phần tử (z,), z € Af, € N. Trong trường hợp AM = (O1, P,) 
và N = (9a, P;) là hai không gian xác suất, thì tích Qị x ©a, cũng 
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có một độ đo xác suất P, được xác định một cách tự nhiên bởi P, 
và bằng công thức sau: Nếu 4¡ C O¡ và 4s C ©¿ nằm trong các 


sigma-đại số tương ứng của 7¡ và 7› thì: 
P(Ai x 4a) = (A1) x Đ(;). (1.15) 


Sigma-đại số của P chính là sigma đại số sinh bởi các tập con của 
QØ¡ x O¿ có dạng 4) x 4; như trên. Khi ta nói đến tích trực tiếp của 
hai không gian xác suất, ta sẽ hiểu là nó đi kèm độ đo xác suất được 
xác định như trên. 

Tương tự như vậy, ta có thể định nghĩa tích trực tiếp của › không 
gian xác suất, hay thậm chí tích trực tiếp của một dãy vô hạn các 


không gian xác suât. 


Định lý 1.2. Hai phép chiếu tự nhiên từ tích (Q\, Dị) x (Qa, P›) của 
hai không gian xác suắt xuống (©, P\) và (Qa, P›) là hai ánh xạ bảo 


toàn xác suất. 


Ví dụ 1.13. Lây 1 đồng xu tung 3 lần, mỗi lần hiện lên S (sắp) hoặc 

N (ngửa). Không gian xác suất các sự kiện ở đây là không gian các 

dãy 3 chữ cái mà mỗi chữ cái là S hay N: 
Q={5995,55N,SNS,SNN,NS5,NSN,NNS,NNNY. 

Ký hiệu (O¿ = {5 N¿}, ?¿) là không gian xác suất của mặt hiện lên 

trong lần tung thứ k. Ta giả sử các kết quả của các lần tung là độc lập 

với nhau (tức là kết quả lần trước không ảnh hưởng đến kết quả của 


các lần sau), khi đó © có thể coi là tích trực tiếp của các không gian 


xác suất (Q„ = {%, N¿}, P,). Giả sử đồng xu là “cân bằng”, hai mặt 


Sử 
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sắp ngửa có xác suất hiện lên giống nhau trong mỗi lần tung. Khi đó 
các không gian (O¿ = {%, N¿}., P¿) là đẳng cấu với nhau và với một 
không gian xác suất Bernoulli với tham số p = 1/2. Ta có thể viết: 
Q=18 NI 

Ví dụ 1.14. Trong ví dụ trên, nếu thay vì chỉ tung đồng xúc sắc có 
3 lần, ta hình dùng la ta tung vô hạn lần (trong thực tê không làm 
được như vậy, nhưng cứ giả sử ta có vô hạn thời gian và làm được 
như vậy). Khi đó mỗi sự kiện được có thể được đánh dấu bằng một 
dãy vô hạn các chữ cái mà mỗi chữ là S hoặc N, và không gian xác 
suất là 

Q={1s,N) 


Ta có thể xây dựng một ánh xạ bảo toàn xác suất sau từ {9, W}Ÿ vào 
đoạn thẳng 0, 1] với phân bố xác suất đều trên đó: 


ó((M. ? };eN) =3 xi BÀ) ĐÀ 


Ở đây mỗi 1; là 9 hoặc W, và x(N) = 0,x(3) = 1. Ánh xạ 

ó:{8, N}Ÿ o [0,1] 
xây dựng như trên không phải là một song ánh, nhưng nó là một 
đẳng cấu xác suất! 


Ví dụ 1.15. Bài toán Méré. Hiệp sĩ de Méré (tên khai sinh là Antoine 
Gombaud (1607-1684), là nhà văn và nhà triết học người Pháp) là 
một nhân vật lịch sử nghiện đánh bạc. Ông ta hay chơi xúc sắc, và 
nhận thấy rằng trong hai sự kiện sau: 


A = “Tung một con xúc sắc 4 lân, có ít nhât 1 lân hiện lên 6”, và 
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Hình 1.5: Blaise Pascal (1623-1662) 


B = “Tung một đôi xúc sắc 24 lần, có ít nhất 1 lần hiện lên một đôi 
6, 

thì Ð ít xảy ra hơn A. Tuy nhiên ông ta không giải thích được tại sao. 
Theo ông ta thì đáng nhẽ hai sự kiện đó phải có khả năng xảy ra bằng 
nhau, vì 24 = 6 x 4. Ông ta bèn hỏi bạn mình là nhà toán học và triết 
học Blaise Pascal (1623-1662), vào năm 1654. Pascal lúc đó đã “từ 
bỏ toán”, nhưng có nhận lời suy nghĩ về câu hỏi của de Méré. Sau đó 
Pascal viết thư trao đổi với Pierre de Fermat (159?-1665), một luật sư 
đồng thời là nhà toán học ở vùng Toulouse (Pháp). Hai người cùng 


nhau phát minh ra lý thuyết xác suắt cổ điển, và giải được bài toán 


3Ð 
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của de Méré. Kết quả là: P(4) = 1— P(4) = 1— (1— 1/6)* + 0,5177, 
và P(B) =1— P(B) =1- (1-— (1/6)2)?! % 0,4914. 





ˆ= 
~ , 
s.-.. 


Hình 1.6: Fermat và “nàng toán”. Tượng ở Toulouse. 


Bài tập 1.7. Chứng minh định Iý[1.2| 
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1.2.7 Phân bố nhị thức 


Phân bố nhị thức là một trong những phân bố hay gặp nhất, và 
nó là một ví dụ về sự xuất hiện các phép toán tổ hợp trong xác suất 


thống kê. 


Định nghĩa 1.4. Phân bố nhị thức với các tham số n,p (n e Ñ,0 < 
p< 1) là phân bố xác suắt 


P(Œ) = C?p°(1— p)"~Ẻ (1.16) 


trên tập hợp ©) = {0, 1,2,..., n}. 


Ö đây, C# = TT] là nhị thức Newton. Ý nghĩa tổ hợp của 
C# là: nó là số các tập con có đúng k phần tử trong một tập hợp có ø 
phần tử, hay nói cách khác, nó là số cách chọn ra một nhóm con với 
⁄ phần tử, từ một nhóm có ø phần tử. 

Nhắc lại rằng ta có công thức đại số quen thuộc sau: 


HD 
(øứ+)°=À Chu", (1.17) 
k=0 

Nếu thay z bằng p và ¿ bằng 1 — p trong công thức trên, thì ta có 
32a C#p*(1— p)"—* = 1, chứng tỏ định nghĩa phân bố xác suất nhị 

thức trên phù hợp với các tiên để về xác suất. 
Ý nghĩa của phân bồ nhị thức như sau: Khi ta làm œ lần một phép 
thử nào đó, và mỗi lần thì xác suất xảy ra kết quả 4 nào đó là p (ví 
dụ: một người bắn súng ø lần, xác suất trúng đích mỗi lần là p), và 


giả sử là kết quả của các lần thử khác nhau độc lập với nhau (lần thử 
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này không ảnh hưởng đến lần thử khác), thì tông số lần xảy ra kết 
quả 4 trong số ø lần đó là một số nguyên nằm giữa 0 và n, và với 
mỗi k = 0.1,2,...,m=, xác sât của sự kiện "số lần ra kết quả 4A là k" 
bằng Œ7p"(1 — p)"—', 

Thật vậy, nêu ta lấy không gian xác suất cho mỗi phép thử là 
không gian {4, 4}, thì không gian xác suất các trường hợp của ø lần 
thử là {4, 4}” (các phần tử của không gian này là các dãy ø kết quả, 
mà mỗi kết quả là A hoặc 4. Có C* phần tử của không gian {A, 4}” 
có chứa đúng k kết quả A và (» — k) kết quả 4. Xác suất của mỗi 
phần tử đó là p*(1 — p)* theo công thức tích của xác suất. Bởi vậy 
xác suất của sự kiện "kết quả 4 xảy ra lần" số phần tử của sự kiện 
này (hiểu như là một tập con của không gian xác suất) nhân với xác 
suất của một phần tử (vì các phần tử này có cùng xác suất), và bằng 
V9 2001 SG.) ) ME k2 
Bài tập 1.8. Hai vận động viên Nam và Tiến chơi một trận tennis. 
Ai thắng được 3 set trước thì thắng cả trận. Giả sử xác suất để Nam 
thắng mỗi set là 40% (để Tiến thắng mỗi set là 60%, và kết quả của 
set này không ảnh hưởng đến set khác). Hỏi xác suât để Nam thắng 


trận tennis là bao nhiêu? 
1.3 Xác suât có điều kiện 


1.3.1 Định nghĩa xác suất có điều kiện 


Như chúng ta đã biết, xác suất của một sự kiện có thể phụ thuộc 


` +Ä HÀ HA +Ä .ÐA Z ˆ? ^ Z ˆ? 
vào nhiêu yêu tô, điều kiện khác nhau. Để chỉ ra một cách cụ thể hơn 
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về việc xác suât của một sự kiện 4 nào đó phụ thuộc vào một điều 
kiện nào đó ra sao, người ta đưa ra khái niệm xác suât có điều 

.A +Ä .A ~ Z +1. ` ^ .A Z ` .A Z 
kiện. Điêu kiện cũng có thể hiểu là một sự kiện, tức là sự kiện “có 
B” 


Định nghĩa 1.5. Giả sử (trong một không gian xác suắt nào đó) điều 
kiện B có xác suắt khác không, P(B) > 0, thì xác suất của sự kiện A 
dưới điều kiện , ký hiệu là P(A|B), được định nghĩa như sau: 


P(An) 


P(AIB) = ~Sm 


(1.18) 
Một hệ quả trực tiếp của định nghĩa xác suất có điều kiện là công 


thức tích sau đây: 
P(An PB) = P(A|B).P(P). (1.19) 


Tất nhiên, ta cũng có thể coi Ø là sự kiện, A là điều kiện, và khi đó 
ta có P(An B) = P(BỊ|A).P(A) 


Ví dụ 1.16. Một lớp học có 30 bạn, trong đó có 17 bạn nữ và 13 bạn 
nam. Có 3 bạn tên là Thanh, trong đó có 1 bạn nữ và 2 bạn nam. 
Thầy giáo gọi ngẫu nhiên 1 bạn lên bảng. Xác suất để bạn đó có 
tên là Thanh sẽ là 1⁄10. Nhưng với điều kiện “đó là bạn nữ” thì xác 
suất để bạn đó tên là Thanh là 1/17. Sự kiện ở đây là A = “tên là 
Thanh”, và điều kiện là ö = “nữ”. Không gian xác suất © có 30 phần 
tử, với phân bô xác suất đều. A có 3 phần tử, 7 có 17 phần tử, và 
An ð có 1 phân tử. Bởi vậy: P(A) = '5 = 3/30 = 1/10; P(A|B) = 
P(An B)/P(®) = (1/30)/(17/30) = 1/17. Chú ý rằng, trong ví dụ 
này ta có P(A|B) # P(A). Vẫn ví dụ này, nếu thầy giáo gọi 1 bạn có 
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tên là Thanh lên bảng, thì xác suất để bạn đó là bạn nữ là bao nhiêu? 
Lời giải: trong 3 bạn Thanh có 1 bạn là nữ, bởi vậy xác suất là 1⁄3. 
Sử dụng công thức P(An 8) = P(B|A).P(A) với xác suất có điều 
kiện, ta cũng có P(B|A) = P(1nB)/P(A) = (1/30)/(1/10) = 1/3. 


(Câu hỏi: Vì sao hai cách giải khác nhau lại ra kết quả giỗng nhau?) 


Ghi chú 1.3. Có thể giải thích ý nghĩa triết lý và toán học của định 
nghĩa xác suất có điều kiện như sau: Sự kiện 4 cùng với điều kiện 
B chính là sự kiện An Ö, tức là “cả A và Z cùng xảy ra”. Ta có thể 
coi 4 và B là hai tập con của một không gian xác suất © ban đầu. 
Các tập con của Ø chính là các sự kiện với điều kiện Ø được thỏa 
mãn. Khi chúng ta đặt điều kiện Z, thì tức là chúng ta đã hạn chế 
không gian xác suất từ Q xuống còn Z, và hạn chế các sự kiện A 
xuống còn 4ñ Ö. Xác suất của 4A với điệu kiện Ø chính là xác suất 
của 4n trong không gian xác suất mới ? với một độ đo xác suất 
Đị: P(ALB) = Pi(An B). Độ đo xác suất Pị không tùy ý, mà nó được 
sinh ra bởi độ đo xác suất P ban đầu, theo nguyên tắc “bình quân”: 
nêu Œ và D là hai tập con của Đ (tức là 2 sự kiện thỏa mãn điểu 
kiện Đ) với cùng xác suất, P(C) = P(ĐÐ), thì ta cũng phải coi rằng 
chúng có cùng xác suất có điều kiện: ¡(C) = P,(D). Một cách tổng 
quát hơn, ta có công thức tỷ lệ thuận: P(Œ)/P(D) = P(Œ)/P(D) 
nêu Œ và D là hai tập con của ở. Từ đó suy ra: P(An B)/P(B) = 
P(AnB)/PB(B) = P(AnB) = P(AIB) (bồi vì P(B) = 1). 


Ví dụ 1.17. Theo một con sô thông kê ở Mỹ năm 2007, có khoảng 
40% các vụ tai nạn xe cộ gây chết người là có người lái say rượu. 
Giá sử tỷ lệ số người say rượu khi lái xe là 4%. Hỏi việc xay rượu khi 


lái xe làm tăng khả năng gây tai nạn chết người lên bao nhiêu lần? 
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Nói cách khác, chúng ta muốn tính tỷ lệ P(4|.5)/P(4), ở đây A là sự 
kiện “lái xe xảy ra tai nạn chết người”, 5 là điều kiện “người lái say 
rượu”. Từ công thức P(AnS) = P(A|S).P(S) = P(S|A).P(A) ta có 
P(A|S)/P(A) = P(S|A)/P(S) = 40%/4% = 10, tức là việc say rượu 
khi lái xe có thể làm tăng khả năng gây tai nạn xe cộ chết người lên 
10 lần. 


Bài tập 1.9. Có hai sự kiện A và B với xác suất lớn hơn 0. Khi nào thì 
ta có P(A|B) = P(BỊ|A)? 


Bài tập 1.10. Ta biệt răng một nhà nọ có 3 con mèo, trong đó có ít 
HÀ ` ` 7+ ¬— Z LŠ r ` Ầ ` ` 
nhật 1 con là mèo cái. Hỏi rắng xác suât để cả 3 con mèo đều là mèo 


cái là bao nhiêu? 


1.3.2 Sự độc lập và phụ thuộc của các sự kiện 


Thế nào là hai sự kiện độc lập với nhau? Về mặt triết lý, hai sự 
kiện độc lập là hai sự kiện không liên quan gì đến nhau. Ví dụ, tôi 
không liên quan gì đến đội bóng đá Barcelona. Đội đó đá thắng hay 
thua tôi cũng không quan tâm, không ảnh hưởng øsì đến việc tôi có 
phải đi chợ hay không. Hai sự kiện “tôi đi chợ” và “đội Barcelona 
thắng” có thể coi là độc lập với nhau. Nếu hai sự kiện 4 và Ø độc lập 
với nhau, thì việc có xảy ra hay không sự kiện không ảnh hưởng gì 
đến việc có xảy ra hay không sự kiện A. Nói cách khác, xác suất của 
A với điều kiện không khác gì xác suất của 4 khi không tính đến 
điều kiện ÐØ. Đấy chính là định nghĩa trong lý thuyết xác suất về sự 


độc lập của hai sự kiện: 
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Định nghĩa 1.6. Sự kiện A được gọi là độc lập với sự kiện B nếu như 
P(A) = P(A|B) = P(An B)/P(ĐÐ), (1.20) 
hay viết cách khác: 
P(An B) = P(A).P(B) (1.21) 


Ghi chú 1.4. Công thức P(A|B) = P(A) tương đương với công thức 
P(An B) = P(A).P(B) và tương đương với P(B|A) = P(B). Điều 
đó có nghĩa là quan hệ độc lập là một quan hệ đối xứng: nêu 4 độc 
lập với thì Ð độc lập với 4A, và chúng ta có thể nói là A và Ð 
độc lập với nhau. Trong công thức P(A|B) = P(24) ta phải giả sử là 
P(Ð) z0. Kể cả khi P(Ð) = 0 thì công thức P(An B) = P(A).P(Đ®) 
vẫn có thể dùng làm định nghĩa được, và khi đó nó hiển nhiên đúng: 


một sự kiện có xác suất bằng 0 thì độc lập với mọi sự kiện khác. 


Tổng quát hơn, giả sử ta có một họ 44 (hữu hạn hoặc vô hạn) các 


sự kiện. 


Định nghĩa 1.7. Họ .M được gọi là một họ các sự kiện độc lập, nếu 
như với bắt kỳ số tự nhiên k nào và bắt kỳ k sự kiện A-,..., A„ khác 


nhau nào trong họ V{ ta cũng có: 


k k 
P lñ 4) = [[ P(A): (1.22) 
=1 =1 


Nếu như P(An B) = P(4).P(B) với bất kỳ hai sự kiện khác 
nhau nào trong họ 4í (tức là đẳng ta chỉ yêu cầu đẳng thức trên 
đúng trong trường hợp k = 2, thì họ ⁄{ được gọi là họ các sự kiện 
độc lập từng đôi một. 
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Ghỉ chú 1.5. Tắt nhiên nêu ta có một họ các sự kiện độc lập, thì các 
sự kiện trong họ độc lập từng đôi một với nhau. Nhưng điều ngược 
lại không đúng: Có những họ không độc lập, mà trong đó các sự kiện 
độc lập từng đôi một với nhau! 
Ví dụ 1.18. Tung 1 xúc sắc 2 lần, được 2 số ký hiệu là a,b. Xét 3 sự 
kiện sau: X là sự kiện “a + b là sô chẵn”, Y là sự kiện “a = 1” và Z là 
sự kiện “b = 4”. Ở đây không gian xác suất là không gian có 62 = 36 
phần tử, mỗi phẩn tử là một cặp số (a, b), mỗi số có thể nhận 1 trong 
6 giá trị 1,2,3,4,5,6. Ta có thể giả sử không gian xác suất này có phân 
bố xác suất đều (2 lần tung độc lập với nhau). Khi đó đễ dàng kiểm 
tra rằng các sự kiện X, Y, Z độc lập từng đôi một với nhau, thê nhưng 
họ 3 sự kiên {X, Y, Z} không phải là một họ độc lập: P(XnYnZ) =0 
trong khi P(X).P(Y).P(Z) = (1/2).(1/6).(1/6) # 0 

Nếu như hai sự kiện không độc lập với nhau, thì người ta nói 
là chúng phụ thuộc vào nhau. Do tính chất đối xứng, nêu sự kiện 
A phụ thuộc vào sự kiện Ð thì Ð cũng phụ thuộc vào A. Nếu như 
P(A|B) > P(B) thì ta có thể nói là điều kiện thuận lợi cho sự kiện 
A, và ngược lại nêu P(4) < P(A|B) thì điều kiện ? không thuận lợi 
cho sự kiện A4. 

Công thức P(4|B)P(B) = P(B|A)P(A) tương đương với công 
thức 

P(AIB)/P(A) = P(B|A)/P(Ð), (1.25) 

có thể được suy diễn như sau: thuận lợi cho 4 (tức là P(A|B)/P(B) 
1) thì A cũng thuận lợi cho và ngược lại. 
Ví dụ 1.19. Giả sử cứ 5 học sinh thì có 1 học sinh giỏi toán, cứ 3 học 


sinh thì có 1 học sinh giỏi ngoại ngữ, và trong sô các học sinh giỏi 


47 


Chương 1. Xác suắt là gì 


toán thì cứ 2 học sinh có 1 học sinh giỏi ngoại ngữ (lón hơn tỷ lệ 
trung bình). Khi đó trong số các học sinh giỏi ngoại ngữ, tỷ lệ học 
sinh giỏi toán là 30% (cũng lón hơn tỷ lệ trung bình): (1⁄2)/(1⁄3) = 
30%/(1/5). 

Bài tập 1.11. Chứng minh rằng nếu một sự kiện 4 độc lập với sự kiện 
B, thì nó cũng độc lập với sự kiện Ö. 

Bài tập 1.12. Tìm một ví dụ với 3 sự kiện A, Ö, C sao cho 4 độc lập 
với hai sự kiện và Œ, nhưng không độc lập với 8 n Œ. 

Bài tập 1.13. Lây một bộ bài tú lơ khơ 52 quân, và rút ra từ đó 2 lần 
mỗi lần 1 quân, để được 2 quân. Gọi 4A là sự kiện “quân rút ra đầu 
tiên là quân nhép” và là sự kiện “quân rút ra thứ hai là quân cơ”. 


Hỏi hai sự kiện A và có độc lập với nhau không? 


1.3.3. Công thức xác suất toàn phần 


Định nghĩa 1.8. Một họ các tập con Pì,..., B„ của không gian xác 
suắt © là một phân hoạch (partition) của © nếu như các tập B, đôi 
một không giao nhau, và hợp của chúng bằng ©: 
B,íñ18;=0Ý¡#ˆ2J7,LU¡P,= (1.24) 
Nếu như ta chưa biết xác suất (4) của một sự kiện 4A nào đó, 
nhưng biết các xát suât P(B,) của một phân hoạch (ì,...., 73„) của 
không gian xác suất, và biết các xác suất có điều kiện P(A|Ø,), thì 
ta có thể dùng công thức sau, gọi là công thức xác suất toàn phẳn 


(total probability formula), để tính xác suất của A: 


P(A) = S`P(An Bộ = Š P(A|B,).P(B)), (1.25) 
4= =} 
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Trường hợp riêng của công thức trên là khi ta có hai sự kiện 4, Ö, 
có thể sử dụng phân hoạch (Ø, ö = ©\_Ø) hai thành phần của © để 


tính xác suât của 4: 


P(A) = P(An B)+ P(An B) = P(AIB).P(B) + P(A|B).P(B). 
(1.26) 
Bài tập 1.14. Theo một số liệu thông kê, năm 2004 ở Canada có 
65,0% đàn ông là thừa cân] và 53,4% đàn bà thừa cân. Số đàn ông 
và đàn bà ở Canada coi như bằng nhau. Hỏi rằng, trong năm 2004, 
xác suất để một người Canada được chọn ngẫu nhiên là người thừa 


cân băng bao nhiêu? 


1.3.4 Công thức Bayes 


Công thức Bayes, mang tên của linh mục và nhà toán học người 
Anh Thomas Bayes (1702-1761), là công thức ngược, cho phép tính 
xác suất có điều kiện P(B|A) khi biết xác suất có điều kiện P(4|Đ) 
và một số thông tin khác. Dạng đơn giản nhất của công thức này là: 
Nếu 4, B là hai sự kiện bất kỳ với xác suất khác 0 thì ta có: 
P(AIB).P(B) 


P(BIA) = —“sun 


(1.27) 


Công thức trên là hệ quả trực tiếp của công thức P(B|A).P(A) = 
P(A|B).P(B) = P(An B) đã được bàn đến ở những phần trước. Kết 





® Theo định nghĩa của các tổ chức y tế, những người có chỉ số trọng lượng cơ thể 
(body mass index) > 2ð được gọi là thừa cân (overweight or obese), trên 30 được 
gọi là béo phì (obese), trên 40 là béo bệnh hoạn (morbidly obese). Chỉ sô trọng 
lượng cơ thể được tính ra từ chiều cao và cân nặng theo công thức: BMI = trọng 
lượng (tính theo kg) chia cho chiều cao (tính theo mét) bình phương 
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hợp công thức trên với công thức xác suất toàn phần cho P(44), ta 
được: 


Định lý 1.3. Giá sử (ị,..., B„) là một phân hoạch của không gian 


xác suắt. Khi đó ta có công thức Bayes sau: 


P(A|Pk).P(¿) — — P(A|Eu).P(Bi) 


PA) ` 9W.P(A|B)P(B) C28 


P(P,|A) = 





với mọi k = 1,2,....,m. 





Hình 1.7: Thomas Bayes (1702-1761) 


Công thức Bayes rất đơn giản nhưng nó có ý nghĩa rât sâu xa. Một 
trong những lỗi mà rất nhiều người mắc phải, là lẫn lộn giữa P(A|) 
và P(B|A), coi hai con số đó như là bằng nhau. Nhưng công thức 
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Bayes cho thấy hai con sô đó có thể chênh lệch nhau rất nhiều, nêu 
như P(4) và P(B) chênh lệch nhau rất nhiều! Dưới đây là một ví dụ 


minh họa điều đó. 


Ví dụ 1.20. Đây là một bài toán được 3 nhà toán học Cassels, Shoen- 
berger và Grayboys đem đồ 60 sinh viên và cán bộ y khoa tại Harvard 
Medical School năm 19789] Giả sử có một loại bệnh mà tỷ lệ người 
mắc bệnh là 1⁄1000. Giả sử có một loại xét nghiệm, mà ai mắc bệnh 
khi xét cũng ra phản ứng dương tính, nhưng tỷ lệ phản ứng dương 
tính nhằm (false positive) là 5% (tức là trong số những người không 
bị bệnh có 5% sô người thử ra phản ứng dương tính). Hỏi khi một 
người xét nghiệm bị phản ứng dương tính, thì khả năng mắc bệnh 
của người đó là bao nhiêu? Theo bạn là bao nhiêu? Hãy thử tự tìm 
câu trả lời trước khi đọc tiếp. 

Nếu bạn trả lồi 95% (= 100% - 5%), thì câu trả lời của bạn cũng 
giống câu trả lời của phần lón những người khác được hỏi. Ta hãy thử 
phân tích kỹ thêm về câu hỏi này. Nếu ký hiệu K là sự kiên “không 
bị bệnh” và D là sự kiện phản ứng dương tính, thì con sô 5% là 
con sô (2|) (xác suất có phản ứng dương tính khi mà không bị 
bệnh) chứ không phải P(K|D) (xác suất không bị bệnh khi mà có 
phản ứng dương tính). Để tính P(X|D), ta dùng công thức Bayes 
li '=== e1. .Ta có P(D|K) = 5/100, 

P(DỊK).P(E) + P(DỊK).P(K) 
P(K) = 1—1/1000 = 999/1000, và P(DỊK).P(K “)+P(P|K). P(K) = 
(1).(1/1000) + (5/100).(999/1000) = 51/1000 (tính xấp xỉ), và bởi 
vậy: P(K|D) = (5/100).(999/1000) /(51/1000) ~ 98%. Như vậy trong 








®Nguỗn: Cassels, Schoenberger and Grayboys, Interpretation by physicians of 
clinical laboratory results. New England Journal of Medicine, 299 (1978), 999-1000. 
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sô những người xét nghiệm ra dương tính, có khoảng 98% số người 
là không bị bệnh. Nói cách khác, khi xét nghiệm ra dương tính, xác 
suất để thực sự mắc bệnh chỉ có 21 

Bài tập 1.15. Được biết có 5% đàn ông bị mù màu, và 0,25% đàn bà 
bị mù màu. Giả sử sô đàn ông bằng sô đàn bà. Chọn 1 người bị mù 
màu một cách ngẫu nhiên. Hỏi rằng xác suất để người đó là đàn ông 


là bao nhiêu? 


1.4 Một số nghịch lý trong xác suất 


Tính toán xác suất là một vẫn để nhiều khi hết sức tế nhị. Kể cả 
trong những bài toán tưởng chừng như rất đơn giản, cũng có thể tính 
ra kết quả sai mà khó phát hiện sai ở đâu. Phần này sẽ gồm một số 
"nghịch lý" trong xác suất để minh họa điều đó . Những nghịch lý này 
cho thấy chúng ta cần hết sức cẩn thận trong lúc lập mô hình tính 
toán xác suất, đặc biệt là xác suất có điều kiện, kiểm tra lại những 


điều tưởng chừng như hiển nhiên, để tránh sai lầm. 


1.4.1 Nghịch lý 1 (Nghịch lý Simpson). Thuốc nào tốt hơn? 


Một người nghiên cứu muôn xác định xem giữa 2 loại thuốc cùng 
để chữa 1 bệnh, loại nào tốt hơn. Kết quả thống kê về lượng người 
chữa được khỏi bệnh, phân biệt theo giới tính, được viết dưới đây 


Giới tính: Nữ ThuốcI Thuốc II 
Chữa được 150 15 
Không chữa được 850 285 
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Giới tính: Nam ThuốcI Thuốc II 
Chữa được 190 720 
Không chữa được 10 180 


Dựa vào bảng thông kê trên, có 2 câu trả lời trái ngược nhau như 
sau cho câu hỏi thuốc nào tốt hơn: 
1) Thuốc I đem cho 1200 người dùng, chữ được bệnh cho 340 người. 
Thuốc II đem cho 1200 người dùng, chữa được 735 người, như vậy 
thuôc II tốt hơn. 
2) Đối với nữ, tỷ lệ chữa được bệnh của Thuốc I là 15%, của Thuốc 
II là 5%. Đôi với nam, tỷ lệ chữa được bệnh của thuốc I là 95%, của 
thuốc II là 80%. Trong cả hai trường hợp thì tỷ lệ chữa được bệnh 
của thuốc I cao hơn, vậy nên thuốc I tốt hơn. 

Trong hai câu trả lời trên câu trả lời nào đáng tin? Vì sao? Nghịch 


lý nằm ở đâu? 


1.4.2 Nghịch lý 2. Hoàng tử có chị em gái không? 


Biết rằng cha mẹ của hoàng tử Romeo có 2 con (hoàng tử Romeo 
là một trong hai người con đó). Hỏi xác suất để hoàng tử Romeo có 
sister (chị gái hoặc em gái) là bao nhiêu? Có 2 đáp án sau: 

1) Hoàng tử có 1 người anh chị em ruột. Có hai khả năng: hoặc người 
đó là con trai, hoặc là con gái. Như vậy xác suất để người đó là con 
gái (tức là hoàng tử có sister) là 1⁄2. 

2) Có 4 khả năng cho 1 gia đình có 2 con: {B,B}, {B,G}, {G,B}, {G,G}. 
(B = boy = con trai, G = girl = con gái, xếp theo thứ tự con thứ nhất 


- con thứ hai). Vì ta biết hoàng tử là con trai (đây là điều kiện) nên 
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loại đi khả năng {G,G}, còn 3 khả năng {B,B}, {B,G}, {G,B}. Trong 
sô 3 khả năng đó thì có 2 khả năng có con gái. Như vậy xác suất để 
hoàng tử có sister là 2/3. 

Trong hai đáp án trên, ắt hẳn phải có (ít nhất) 1 đáp án sai. Thế 


nhưng cái nào sai, sai ở chỗ nào? 


1.4.3. Nghịch lý 3. Văn Phạm có phải là thủ phạm? 


Một người đàn ông tên là Văn Phạm bị tình nghỉ là thủ phạm 
trong một vụ án. Cảnh sát điều tra được những tin sau đây: 1) ngoài 
nạn nhân chỉ có 2 người có mặt lúc xảy ra vụ án, một trong hai người 
đó là Văn Phạm, người kia cảnh sát không hề biết là ai, và một trong 
hai người đó là thủ phạm; 2) thủ phạm phải là đàn ông. Hỏi xác suất 
để "Văn Phạm là thủ phạm" là bao nhiêu? 

Gọi người thứ hai mà cảnh sát không biết là ai là "X". X có thể là 
đàn ông hoặc đàn bà. Ta gọi sự kiện "Văn Phạm là thủ phạm" là A, sự 
kiện "X là đàn ông" là B, "thủ phạm là đàn ông" là Œ. Có hai cách giải 
khác nhau như sau: 

1) Theo công thức xác suất toàn phần ta có P(A) = P(A|B).P(B)+ 
P(A|B).P(Đ) Nếu X là đàn bà thì X không thể là thủ phạm và Văn 
Phạm phải là thủ phạm, bởi vậy P(A|B) = 1. Nếu X là đàn ông 
thì một trong hai người, X hoặc Văn Phạm, là thủ phạm, bởi vậy 
P(A|B) = 1/2. X có thể là đàn ông hoặc đàn bà, và ta coi sô đàn 
ông bằng số đàn bà, bởi vậy P(B) = P(B) = 1/2. Từ đó ta có 
P(4) = (1/2).(1/2) + 1.(1/2) = 3/4, có nghĩa là xác suất để "Văn 
Phạm là thủ phạm" bằng 3⁄4. 
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1.4. Một số nghịch lý trong xác suắt 

2) Ta coi C là điều kiện, và muốn tính xác suất có điều kiện 

P(A|C) (xác suât để Văn Phạm là thủ phạm, khi biết rằng thủ phạm 
là đàn ông). Theo công thức Bayes ta có 


P(CIA).P(A) 
P(GIA).P(A) + P(C|A).P(A)' 





P(AIC) = 


Ỏ trong công thức trên, P(4) là xác suất của sự kiện "Văn Phạm là 
thủ phạm" nêu như chưa có điều kiện "thủ phạm là đàn ông". Vì một 
trong hai người Văn Phạm và X là thủ phạm, nên xác suất P(4) 
không có điều kiện ở đây là P(A) = 1/2. Ta có P(C|A) = 1 vì tất 
nhiên nếu Văn Phạm là thủ phạm thì thủ phạm là đàn ông. Ngược 
lại, P(C|4) = 1/2 (nêu X là thủ phạm, thì thủ phạm có thể là đàn 
ông hoặc đàn bà, khi mà chưa đặt điều kiện "thủ phạm là đàn ông"). 


Bồi vậy ta có: 


. 1.(1/2) —— 1/2 = 
PC) = 1172)1(/2).0/2) 3/4 2” 





tức là xác suât để Văn Phạm là thủ phạm bằng 2/3. 
Hai cách giải trên cho 2 đáp số khác nhau, như vậy (ít nhất) một 


trong hai cách giải trên là sai. Cách giải nào sai và sai ở chô nào? 


1.4.4 Lời giải cho các nghịch lý 


Nghịch lý 1. Vẫn đề nằm ỏ chỗ Thuốc I được đem thử cho quá it 
nam, quá nhiều nữ so với thuốc II, nên khi lẫy tổng số các kết quả 
của các phép thử thì nó thiên vị thuốc II và không phản ánh đúng tỷ 
lệ chữa được bệnh. Kết luận 1) là sai và kết luận 2) đáng tin hơn. 
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Nghịch lý 2. Nghịch lý này có trong 1 quyển giáo trình tiếng Anh 
về xác suất. Điều đáng ngạc nhiên là tác giả của giáo trình đó nói 
rằng đáp án thứ hai đúng (tức là xác suất = 2⁄3) và đáp án thứ nhất 
sai. Đọc kỹ đáp án thứ 2, ta thây khả năng B,B thực ra không phải là 
một khả năng đơn, mà là một khả năng kép gồm có 2 khả năng trong 
đó: hoảng tử được nói đến hoặc là người con trai thứ nhất, hoặc là 
người con trai thứ hai. Như vậy phải tính B,B là 2 khả năng B=H,B 
và B, B=H (H là hoàng tử). Như thế tổng cộng vẫn có 4 khả năng, 
và xác suất vẫn là 2/4 = 1⁄2. Sai ở đây là sai trong cách đêm số khả 
năng. (Có câu hỏi khác: tại sao 4 khả năng này lại phải có xác suất 
bằng nhau? Tại sao lại phải có phân bồ xác suất đều? Câu trả lời đành 
cho bạn đọc). Nếu ta đổi bài toán đi một chút thành: Một gia đình 
có 2 con, biết rằng ít nhật một trong hai con là con trai, thử hỏi xác 
suất để có con gái là bao nhiêu? Trong bài toán này thì xác suất là 
2⁄3 thật. Bạn đọc thử nghĩ xem sự khác nhau giữa hai bài toán nằm 
ở chỗ nào? 

Nghịch tý 3. Vân đề ở đây nằm ỏ sự lẫn lỗn giữa các không gian 
xác suất trong lúc lập mô hình để tính xác suất. Trong cách giải thứ 
nhất, khi ta viết P(4) để tính xác suất của sự kiện "Văn Phạm là 
thủ phạm", không gian xác suất của ta phải là không gian O tất cả 
các khả năng (với một trong 2 người Văn Phạm và X là thủ phạm) 
thỏa mãn điều kiện "thủ phạm là đàn ông", chứ không phải là không 
gian Q của tất cả các khả năng có thể xảy ra (với một trong 2 người 
Văn Phạm và X là thủ phạm), bắt kể thủ phạm là đàn ông hay đàn 
bà. Để cho khỏi lẫn lộn, thì trong cách giải thứ nhất ta phải viết 
Pe(A) = Pc(AIB).Pc(B) + Pc(A|LB).Pc(B) Trong không gian © thì 
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ta có P(B) = 1/2, tức là xác suất để X là đàn ông là 1⁄2. Nhưng 
trong không gian O¿ dùng trong cách giải thứ nhất, thì ta phải dùng 
xác suất „; của không gian đó, và (8) không phải là 1⁄2, mà thực 
ra là 2/3, và Po(B) = 1/3. Nói cách khác, khi biết rằng một trong 
hai người X và Văn Phạm là thủ phạm, và biết rằng thủ phạm là đàn 
ông, thì xác suắt để X là đàn ông là 2/3 chứ không còn là 1⁄2 nữa! 
(Vì sao vậy?). Nêu ta sử dụng các con số xác suất này trong công 
thức tính xác suất toàn phần của 4 trong không gian ©¿ thì ta được: 
pc(4) = (1/2).(2/3) + 1.(1/3) = 2/3 Tức là nêu ta sửa lỗi về xác suất 
của ? đi, thì cách giải thứ nhất sẽ cho cùng đáp số 2/3 như cách giải 
thứ hai. 


1.5 Luật số lớn 


Luật số lớn là một trong những định luật cơ bản nhất của lý 
thuyết xác suất và thông kê. Ở dạng đơn giản nhất, nó có thể được 
phát biểu một cách nôm na như sau: khi một phép thử được lặp 
đi lặp lại rất nhiều lần, thì số lần cho ra một kết quả nào đó trong 
tổng số các lần thử sẽ phản ánh khá chính xác xác suất để xảy ra 
kết quả đó trong 1 lần thử. Ví dụ, giả sử ta có một đồng tiền với 
hai mặt sắp (S) và ngửa (N) với xác suất hiện lên bằng nhau và 
bằng 1⁄2 khi tung đồng tiền. Giả sử ta tung đi tung lại đồng tiền 
nhiều lần, và được một dãy các kết quả sắp ngửa, ví dụ như: SN 
SSNSNSNNSS...Ta gọi 5(n) là tần số xuất hiện lên mặt 
sắp sau khi tung đồng tiền ø lần, tức là sô lần hiện lên mặt sắp 


sau khi tung đồng tiền ø lần chia cho ø, ví dụ như theo dãy trên: 
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6l) =1/5(2) = 1/2600) 208,800 <6 3/1900) <=3/0,000) 
1/9.00107) Fe 54/12 608) =t 0/8000) =10/0:/601đ0) =. 1/2 6111) = 
6/11,/5(12) = 7/12,.... Các con số S(») mà chúng ta thu được nói 
chung khác 1⁄2, nhưng luật số lớn nói rằng chúng ta có thể yên tâm 
rằng khi ø tiễn tới vô cùng thì S(n) sẽ tiễn tới 1⁄2: lim„;„ 9(n») = 
1/2. 

Dưới đây chúng ta sẽ phát biểu luật sô lớn một cách chặt chế 
thành định lý toán học và chứng minh nó, cho phân bố Bernoulli. 

Giả sử có một phép thử nào đó có thể thực hiện được nhiều lần, 
và xác suất để xảy ra kết quả X trong một lần thử là một hằng số ø, 
0 < p< 1. (Ví dụ: phép thử là “tung xúc sắc”, kết quả là “hiện lên 1 
châm”, xác suất là p=1/6). Ta gọi X k„ là sự kiện sau: khi thực hiện 
n lần phép thử thì X xuất hiện * lần trong số ø lần thử. Chúng ta biết 


rằng xác suất của X;.„ tuân theo phân bồ nhị thức: 
P(Xts) = Cáp “(1 — p)”—”. (1.29) 


Lây một số đương c > 0 tùy ý sao cho 0 < p—c < p+c < 1. Gọi X$ là 
sự kiện sau: khi làm phép thử ø lần thì tần suất xuất hiện kết quả X 
chênh lệch so với xác suất p không quá c, tức là p — c < k/n < p+, 
trong đó š: là số lần hiện lên kết quả X. Sự kiện X⁄‹ là hợp của các sự 
kiện X;„ thỏa mãn bất đẳng thức p—  < k/n < p+ c, do vậy: 
P(X$) = »; 0/1010 ')MiAUl (1.30) 
nặp~c)Sk<n(ø+©) 
Định lý 1.4. Với hai số dương p. c bắt kỳ thỏa mãn 0 < p—e < p+c< 
1, ta có 
lim » CRp°(1 — p)*~* = 1. (1.31) 


?ì—>Cœ© 
n{p—e)<Sk<n(p+©) 
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Có nghĩa là, xác suắt P(X§) của sự kiện “sau n phép thử thì tẫn suắt 
hiện kết quả X sai lệch so với xác suắt p của X không quá c” tiến tới 1 
khi số phép thử n tiến tới vô cùng. 

Định lý trên gọi là dạng yêu của luật số lớn cho phân bố Bernoulli. 
Dạng mạnh của luật số lớn, sẽ được xét tới trong chương sau, phát 
biểu là tần suất k/ø tiễn tới p khi ø tiễn tới vô cùng hầu như chắc 
chắn (tức là với xác suất bằng 1: tập những dãy vô hạn lần thử mà 
điều đó sai có xác suất bằng 0 trong không gian tất cả các dãy vô hạn 
lần thử). 


Chứng minh. Chúng ta muôn chứng minh rằng hiệu 


1— P(X§) =ỦÙa + Vn, (1.32) 
trong đó 
Ủ„ = » C?p*( —p)"* và Vạ = » Cwp*( —Ð)"-*, 
0<k<n(p—c) n(p+c)<k<n 
(1.33) 


tiễn tới 0 khi » tiễn tới vô cùng. Để đánh giá V„, chúng ta có thể dùng 
thủ thuật sau đây: Gọi A là một sô dương bất kỳ, khi đó ta có 
1e ` ¿A5 TiWPboh CD (Í số pị% 


n(p+e)<k<n 
S5 gay ca Ð ẤT TS TÔ 0P ÌS ĐỊT TẾ 
— c—-Àne » CR(c^4~=P)„)È(e~3P(1 — p))*—È (1.34) 
0<k<n 


e~*<(cÀ~?)p s e~X(1 — p))” 

tia ve, (SE) SỰ (ÀJ: 
với ƒ(A) = e7^*(eXd=?)p + e~*?(1 — p)). Chú ý rằng hàm số ƒ(A) có 
ƒ(0) = 1 và đạo hàm ƒ(0) = —c < 0. Như vậy nếu ta chọn À > 0 đủ 
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nhỏ thì ta có 0 < ƒ(A) < 1, dẫn tới lim„_,„ ƒ(A)* = 0. Vì V„ < ƒ(A)” 
nên ta cũng có lim„;„e „ = 0. Một cách hoàn toàn tương tự, ta có 


thể chứng minh lim„_;„¿ „ = 0, suy ra lim„_;ss Ứ„ + W„ = 0. Phần 











chứng minh này là bài tập dành cho bạn đọc. 





Chúng ta có thể mỏ rộng luật số lớn cho phân bố Bernoulli thành 
luật số lớn cho một không gian xác suất bất kỳ vời hữu hạn các phần 
tử như sau. Giả sử có một phép thử, mà cứ một lần thử thì hiện lên 
một trong các kết quả 4,..., 4;, với các xác suất P(A,) = p¡ tương 
ứng. (3)? ¡ø¡ = 1, và Q = {Ai,..., 4;} lập thành một không gian 
xác suất hữu hạn với các xác suất P(4;) = p;). Làm phép thử đó ø 
lần (các lần thử độc lập với nhau), và gọi ; là số lần hiện lên kết quả 


Ầ À 2 z . ` .A kị 
4; trong sô ø lần thử đó. Gọi Đ§ , là sự kiện |-——“ — | < c. 
: Tì 
Định lý 1.5. Với mọi c > 0 ta có 
lim PB 3Í BD,af1...f1 Ba) =E: (I5) 
T,—>OO » k : 


Ghỉ chú 1.6. (Một chút lịch sử®)Ì. Luật sô lớn được biết đến ỏ dạng 
trực giác, “càng thí nghiệm nhiều lần thì kết quả thống kê càng chính 
xác”, từ hàng nghìn năm trước đây. Nhà toán học và thiên văn học 
người Ân Độ Brahmagupta (598-668), và sau đó nhà toán học người 
Italia Gerolamo Cardano (1501-1576), có phát biểu nó mà không 
chứng minh. Người đầu tiên đưa ra chứng minh toán học cho luật số 
lớn có lẽ là Jacob Bernoulli năm 1713, và luật số lớn còn được gọi 
là Định lý Bernoulli. Cái tên luật số lớn (la loi des grands nombres) 
được Siméon Denis Poisson viết ra năm 1835, và ngày nay người ta 


hay gọi theo tên đó. 





Xem: http://en.wikipedia.org/wiki/Law_of large_numbers. 
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1.6. Bài tập bổ sung cho Chương 1 


Bài tập 1.16. Suy ra định Iý[1.5|từ định 1ý[1.4| 


1.6 Bài tập bổ sung cho Chương 1 


Bài tập 1.17. Tung một đồng tiền cân bằng cho đến khi mặt ngửa 
hiện lên 3 lần. Gọi 4 là sự kiện “cần tung 6 lần”. Hãy lập một không 


gian xác suât cho vân đề xác suât này, và tính xác suât của sự kiện A. 


Bài tập 1.18. (Bài tập của ngành bảo hiểm). Một công ty bảo hiểm ô 
tô có 20000 người đăng ký bảo hiểm. Những người đăng ký bảo hiểm 
được công ty phân loại theo 3 tiêu chuẩn: 

7) Trẻ hay già, 

1) Đàn ông hay đàn bà. 

iii) Có vợ/chồng hay độc thân. 

Được biết, trong số những người đăng ký bảo hiểm, có 6300 người 
trẻ, 2600 người là đàn ông, 13800 người có vợ/chồng, 2700 đàn ông 
trẻ, 6400 đàn ông có vợ, 2900 người trẻ có vợ/chồng, 1100 người là 
đàn ông trẻ có vợ. Hỏi xác suất để một người đăng ký bảo hiểm ô tô 
của hãng được chọn một cách ngẫu nhiên là một phụ nữ trẻ độc thân 


băng bao nhiêu? 


Bài tập 1.19. Một anh chàng có 2 cô bạn gái A và B, và không biết 
là thích cô nào hơn. Anh ta hay đi thăm các cô bạn một cách ngẫu 
nhiên: ra bến xe buýt, nễu gặp xe buýt đi tuyên đường đến nhà cô A 
trước thì đi lên xe đó thăm cô A, còn nễu gặp xe đi tuyến đường đến 
nhà cô B trước thì đi thăm cô B. Cả hai tuyến đường đều có xe đều 
đặn 10 phút một xe. Sau một thời gian dài, anh ta nhận ra rằng mình 


đi thăm cô bạn A nhiều gấp 3 lần cô bạn B. Có thể giải thích bằng 


61 


Chương 1. Xác suắt là gì 


xác suất tại sao? 
Bài tập 1.20. (Số may rủi). Giả sử có một loại xổ số chỉ có 100 số, từ 
00 đến 99, mỗi lần quay có 1 số trúng giải. 
j) Tính xác suất sao cho trong 100 lần quay, không có lần nào sô 68 
trúng giải. 
i0 Tính xác suất để sao cho trong 100 lần quay, số 99 trúng giải đúng 
2 lần. 
Bài tập 1.21. Một lớp học có 36 học sinh. Hỏi rằng xác suất để có 
hai học sinh của lớp có cùng ngày sinh nhật là bao nhiêu? (Viết công 
thức để tính số đó, và thử ước lượng xem số đó gần số nào hơn trong 
3 số này: 0, 50%, 1?) 
Ví dụ 1.21. Có ø người chơi trò tung mũng trong một dạ hội: mỗi 
người cầm 1 cái mũ của mình, tung vào giữa phòng. Sau đó mỗi 
người nhặt lây một cái mũ trong sô các mũ được tung một cách ngẫu 
nhiên. Chứng minh rằng xác suất để không có người nào nhặt được 
đúng mũ của chính mình là 

HỆ. (—1}" 


DIIME INJ 7T) k5; 





Khi n tiễn tới vô cùng thì số này tiễn tới e1. 

Bài tập 1.22. (Bổ đề Borel-Cantelli). Giả sử (A„)„cw là một dãy các 
tập con đo được trong một không gian xác suất (Q, P). Gọi B.. là tập 
hợp các phần tử của O mà nằm trong một số vô hạn các tập con A„ 
của dãy. Chứng minh rằng: 

Ù Nếu 522%. P(A„) < oœ thì P(B..) = 0. 

i) Nêu tổn tại một số c và vô hạn các tập con 4„ của dãy thỏa mãn 
điều kiện P(4A„) > c, thì P(B„„) > c. 
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(Gợi ý: Đặt Ø„, = tập các phần tử của © nằm trong ít nhất k tập con 
A„ của dãy. Khi đó P(„„) = lim; ;„. Öö¿.. Trong trường hợp thứ nhất, 
chứng minh rằng k.,, < ÿˆ?° ¡ P(A„) với mọi k. Trong trường hợp 
thứ hai, chứng minh rằng P(,) > c với mọi È). 


Bài tập 1.23. (Tủ của Bertrand). Có 3 ngăn kéo, 1 ngăn có 2 đồng 
tiền vàng, 1 ngăn có 2 đồng tiền bạc, và 1 ngăn có 1 đồng tiền vàng 
và 1 đồng tiền bạc. Rút ra một ngăn kéo một cách ngẫu nhiên, và lôi 
ra từ ngăn kéo đó một đồng tiền một cách ngẫu nhiên. Giả sử được 
1 đồng tiền vàng. Hỏi xác suât để ngăn kéo được rút ra là ngăn kéo 


chứa hai đồng tiền vàng bằng bao nhiêu? 


Bài tập 1.24. Có ba người A, B, C bị bắt vào tù. Có lệnh thả hai trong 
sô ba người này ra. Cai tù nhận được lệnh, nhưng đến hôm sau mới 
được công bố và thi hành lệnh. Người tù A bảo cai tù: hãy nói cho 
tôi biết tên 1 người được thả trong hai người B và C đi. Cai ngục trả 
lời: anh đang có xác suất được thả là 2⁄3. Nêu tôi nói tên một người 
được thả trong số hai người B và C, thì giữa anh và người còn lại chỉ 
còn một người được thả nữa thôi, bởi vậy xác suắt để anh được thả 
sẽ giảm xuống còn 1⁄2. Tôi không muốn xác suất để anh được thả bị 
giảm đi, bởi vậy tôi sẽ không nói tên. Hỏi rằng người cai ngục lý luận 
như vậy có đúng không? 

Bài tập 1.25. Hai kẻ trộm đeo mặt nạ, bị cảnh sát đuổi bắt, bèn vứt 
mặt nạ đi và trà trộn vào một đám đông. Cảnh sát bắt giữ toàn bộ 
đám đông, tổng cộng 60 người, và dùng máy phát hiện nói dối (lie 
detector) để điều tra xem ai trong đám đông là kẻ trộm. Biết rằng 
đối với kẻ trộm, xác suất bị máy nghỉ là có tội là 85%, nhưng đối với 


người vô tội, thì xác suất để bị máy nghi nhầm thành có tội là 7%. 
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Giả sử X là một nhân vật trong đám đông bị máy nghỉ là có tội. Tính 


7 HÀ .? ` ^ 
xác suât để X là kẻ trộm. 


Bài tập 1.26. (Bò điên). Năm 2001 Cộng Đồng Châu Âu có làm một 
đợt kiểm tra rất rộng rãi các con bò để phát hiện những con bị bệnh 
bò điên (bovine spongiform encephalopathy). Không có xét nghiệm 
nào cho kết quả chính xác 100%. Một loại xét nghiệm, mà ở đây ta 
gọi là xét nghiệm A, cho kết quả như sau: khi con bò bị bệnh bò điên, 
thì xác suất để ra phản ứng dương tính trong xét nghiệm A là 70%, 
còn khi con bò không bị bệnh, thì xác suắt để xảy ra phản ứng dương 
tính trong xét nghiệm 4 là 10%. Biết rằng tỷ lệ bò bị mắc bệnh bò 
điên ở Hà Lan là 1,3 con trên 100000 con. Hỏi rằng khi một con bò 
ở Hà Lan phản ứng dương tính với xét nghiệm A, thì xác suất để nó 


bị mắc bệnh bò điên là bao nhiêu? 


Bài tập 1.27. (Giá dầu hỏa). Giá dầu hỏa có những lúc đao động rất 
mạnh, có khi đi lên hơn 100% trong vòng 1 năm. Giả sử rằng, nêu 
tính giá theo USD của năm 2009 (sau khi đã điểu chỉnh theo tỷ lệ 
lạm phát), thì giá dầu hỏa không bao giờ xuông dưới 10 USD một 
thùng (dưới mức đó người ta ngừng sản xuất dầu hỏa vì không còn 
lãi gì nữa) và không bao giờ lên quá 300 USD một thùng (trên mức 
đó người ta dùng các loại năng lượng khác rẻ hơn). Hỏi họ các sự 
kiện Gx sau đây (x=0,1,...9) có thể là một họ độc lập các sự kiện 
được không : Gx = “năm 201x giá dầu hỏa tăng lên ít nhất 50% tính 
từ đầu năm đến cuối năm, tính theo USD của năm 2009”. Giải thích 


tại sao? 
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(YET ANOTHER) HISTORY O©F LIFE AS WE KNOW IT... 


Œ® 


: 


HOM HOHO HOHO HOHO HOHO 
APERIORIUS PRAGHATTICUS EREOUENTISTUS SÀPIENS BAYESIANIS 





Hình 1.8: Tranh vui về sự tiễn hóa của loài người 
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Chương 2 
Biên Ngẫu Nhiên 


2.1 Biên ngâu nhiên và phân bô xác suât của nó 


2.1.1 Biến ngẫu nhiên là gì? 


“Biến” là cái có thể thay đổi. “Ngẫu nhiên” là khi người ta chưa 
xác định được cái gì đó, thì người ta gọi nó là ngẫu nhiên. Cái gì khi 
đã xác định được, thì thành “định tính”, hết ngẫu nhiên. Một biến có 
thể là ngẫu nhiên với người này, nhưng không ngẫu nhiên với người 
khác, tùy theo lượng thông tin nhận được. Ví dụ, số thứ tiếng ngoại 
ngữ mà ông A nói được là một sô xác định, không ngẫu nhiên đối với 
ông A, nhưng nó là một sô không xác định, ngẫu nhiên với một ông 
B nào đó. 

Biến ngẫu nhiên có thể nhận giá trị trong mọi phạm trù (hiểu từ 
phạm trù ở đây theo nghĩa thông thường chứ không phải theo nghĩa 
phạm trù toán học), ví dụ như màu sắc, hình đạng, phương hướng, 
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v.v. Tuy nhiên, bằng các ánh xạ (không ngẫu nhiên), chúng ta có thể 
chuyển việc nghiên cứu mọi biên ngẫu nhiên về việc nghiên cứu các 
biến ngẫu nhiên nhận giá trị là các sô. Bỏi vậy ở đây, khi nói đến một 
biến ngẫu nhiên mà không nói cụ thể nó nhận giá trị ở đâu, chúng ta 
sẽ hiểu là các giá trị của nó là các con sô. 
Ví dụ 2.1. Tại thời điểm đóng cửa thị trường chứng khoán Mỹ hôm 
04/09/2009, giá cổ phiêu của hãng phần mềm máy tính Oracle (mã 
chứng khoán: ORCL) là 21,97 USD. Nó đã được xác định và không 
còn ngẫu nhiên. Thế nhưng tại thời điểm đó, thì giá cố phiêu của 
Oracle cho lúc cuỗi ngày 18/09/2009 chưa được biết, và nó là một 
biết ngẫu nhiên đôi với thị trường chứng khoán. Người ta cho rằng 
giá của nó vào ngày 18/09/2009 có thể lên trên 23 USD, mà cũng có 
thể xuống dưới 21 USD. Điều này thể hiện qua việc, tại thời điểm cuôi 
ngày 04/09/2009 , quyển mua ORCL trước ngày 19/09/2009 với giá 
23 USD (September 2009 call option at strike price 23) có giá 0,25 
USD (nêu như ai cũng biết chắc rằng giá của ORCL vào thời điểm 
18/09/2009 sẽ không vượt quá 23 thì cái quyền mua đó sẽ phải có 
giá bằng 0 vì không có giá trị gì), đồng thời quyền bán (put option) 
ORCL với giá 21 có giá là 0,30 USD. (Các thông tin về giá cả cổ phiêu 
và option có thể xem trên rất nhiều các trang web về chứng khoán). 
Tương tự như với các số và các hàm số, ta có thể làm nhiều phép 
toán khác nhau với các biễn ngẫu nhiên: cộng, trừ, nhân, chia, lây 
giới hạn, tích phân, hàm hợp, v.v. Qua các phép toán như vậy, chúng 
ta có thể sinh ra các biên ngẫu nhiên mới từ các biến ngẫu nhiên cho 
trước. 


Ví dụ 2.2. Một học sinh thi vào đại học phải thi 3 môn. Điểm của mỗi 
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môn có thể coi là 1 biến ngẫu nhiên. Tổng số điểm cũng là một biên 
ngẫu nhiên, và nó là tổng của 3 biến ngẫu nhiên phía trước. 

Ví dụ 2.3. Tốc độ V của một xe ô tô đang chạy trên đường có thể coi 
là một biên ngẫu nhiên. Nếu xe đang chạy mà phải phanh gấp lại vì 
phía trước có nguy hiểm, thì từ thời điểm người lái xe bóp phanh cho 
đến thời điểm xe dừng lại, xe phải chạy thêm mắt một quãng đường 
có độ dài 7 nữa. D cũng có thể coi là một biến ngẫu nhiên. Nó không 
phải là tỷ lệ thuận với WV, mà là tỷ lệ thuận với bình phương của V. 
Tức là biến ngẫu nhiên 7 có thể được sinh ra từ biên ngẫu nhiên V 
theo công thức: 7 = .V2. Hệ số ; ỏ đây phụ thuộc vào điều kiện của 
đường và điều kiện của xe; nó có thể coi là xác định nếu ta biết các 
điều kiện này, còn nêu không thì có thể coi là một biên ngẫu nhiên 
khác. Ví dụ, trong điều kiện bình thường, thì k = 0,08m—1.s?: một 
xe đang chạy với tốc độ 36km/h = 10m/s thì từ lúc bóp phanh đến 
lúc dừng lại chạy thêm mất 0,08 x 102 = § mét, nhưng nếu xe đang 
chạy với tốc độ 108krn/h = 3 x 36kw/h, thì từ lúc bóp phanh đến lúc 
dừng lại sẽ chạy thêm mắt những 8 x 32 = 72 mét. 


2.1.2. Mô hình toán học của biến ngẫu nhiên 


Giả sử có một biên ngẫu nhiên X. Chúng ta giả sử là có nhiều 
tình huống khác nhau có thể xảy ra, và trong mỗi tình huông thì X 
sẽ nhận được một giá trị nào đó. Như vậy một biến ngẫu nhiên có thể 
được mô hình hóa bằng một hàm sô X : © -> IR. Ở đây © là không 
gian đại diện cho các tình huồng có thể xảy ra. Các tình huồng, hay 
các nhóm các tình huống (các tập hợp con của ©) là các sự kiện, và 


Z z ở Ẩ»+ .A ^ Z Lễ Ầ ” r 
chúng ta có thể gắn cho môi sự kiện một xác suât về khả năng xây 
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ra. Điều đó có nghĩa là © có thể coi là một không gian xác suất, ký 
hiệu là (Q, P) với một độ đo xác suất P. Chúng ta luôn giả sử rằng, 
với mọi cặp sô a,b € lR,a < b, tỒn tại xác suất P(a < X < b) của sự 
kiện (a < X < ), hay nói cách khác, tập hợp {œ € O|ø < X(w) < b} 
là tập đo được. Các hàm X : © —› R thỏa mãn điều kiện này được gọi 
là hàm đo được trên (O, P). Từ đó chúng ta có định nghĩa toán học 


sau: 


Định nghĩa 2.1. Một biến ngẫu nhiên (random variable) với giá trị 


thực là một hàm số đo được trên một không gian xác suắt: 
X:(0,P)¬R. (2.1) 


Định nghĩa 2.2. Nếu ta có hai biến ngẫu nhiên X,Y (với cùng một 
mô hình không gian xác suắt), thì ta sẽ nói rằng X = Y theo nghĩa xác 
suắt, hay X = Y hầu khắp mọi nơi , nếu như sự kiện “X = Y” có 
xác suắt bằng 1 (tức là tập hợp các trường hợp mà ở đó X # Y có xác 


suắt bằng 0, có thể bỏ qua). 


Ví dụ 2.4. Một thí sinh đi kiểm tra trắc nghiệm, được giao 5 câu hỏi 
một cách ngẫu nhiên. Được biết 3 câu đầu thuộc loại vừa, và xác 
suất để thí sinh làm đúng cho mỗi câu là 80%, 2 câu sau thuộc loại 
khó, và xác suất làm đúng mỗi câu là 50%. Mỗi câu làm đúng thì 
được tính 1 điểm. Không gian © các tình huông ở đây gồm 2 = 32 
phần tử, mỗi phần tử có thể được ký hiệu bằng 1 dãy 5 chữ cái mà 
mỗi chứ cái là D (đúng) hoặc S (sai). Từ thông tin phía trên có thể 
suy ra xác suất của mỗi phần tử của O, ví dụ như P(2DSSD) = 
80%.80%.20%.50%.50% = 4/125 = 3, 2%. Biên ngẫu nhiên là tổng số 
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điểm, tức là hàm X : © -—› {0,1,2,3,4,5}, X của một dãy chữ cái 
bằng số lần chữ cái D xuất hiện trong dãy. 

Ví dụ 2.5. Nêu A là một sự kiện, thì ta có thể định nghĩa hàm chỉ 
báo x„ của 4A như sau: x„ = 1 khi A xảy ra và x„ = 0 khi 4 không 
xảy ra. Nêu ta có một sự kiện, thì hàm chỉ báo của nó là một biến 
ngẫu nhiên chỉ nhận hai giá trị 0 và 1, và ngược lại, nêu ta có một 
biến ngẫu nhiên Ƒ' chỉ nhận 2 giá trị 0 và 1, thì nó là hàm chỉ báo 
của sự kiện {F' = 1}. Nếu ta biểu diễn A như là một tập con của một 
không gian xác suất ©, thì hàm chỉ báo của 4 được biểu diễn như là 
hàm chỉ báo của tập 4 trong ©: 


1 khiwc€ A 


= | 2.2 
lu bà khic 4=9\4 .. 


2.1.3 Phân bô xác suât của biên ngâu nhiên 


Nhắc lại rằng, nêu ta có một không gian xác suất (O, P) và một 
ánh xạ X : (O,P) — A từ © lên một không gian A nào đó, thì phép 
push-forward theo X sẽ biến A thành một không gian xác suất, với 
độ đo xác suât cảm sinh Px = X*P: theo định nghĩa, nếu là một 


tập con của A sao cho tổn tại P(X~1()) thì 


Trong trường hợp X : (O, P) -› IR là một biên ngẫu nhiên, tính chất 
đo được của X (trong định nghĩa của biến ngẫu nhiên) nói rằng tổn 
tại P(X~!(Ja,b])) = P(a < F < b) với mọi đoạn thẳng nửa mỏ ]a, Ù] 


trên IR. Sigma-đại sô Ø sinh bởi các đoạn thẳng nửa mỏ trên IR được 
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gọi là signma-đại số Borel của IR. Khi nói đến một phân bố xác suất 
trên IR, chúng ta sẽ coi rằng sigma-đại số tương ứng chính là sigma- 
đại số Borel, bởi vì nói chung chúng ta sẽ chỉ quan tâm đến xác suất 
của các đoạn thẳng, và các tập con của I xây dựng được từ các đoạn 
thẳng bằng các phép giao, hợp, lẫy phẩn bù. Do đó ta có định nghĩa 


sau: 


Định nghĩa 2.3. Phân bố xác suất (hay còn gọi là phân phối xác 
suất) của một biến ngẫu nhiên X (trên R) là phân bỗ xác suắt Py trên 
R, với sigma-đại số là sigma-đại số Borel B của IR, cho bởi công thức 
sau: 

Pg(B) = P(X"!(B)) (:3) 


với mọi tập con của IR năm trong sigma-đại số B. 
Định lý sau cho phép hiểu rõ hơn về sigma-đại sô Borel: 


Định lý 2.1. ¿ Mọi đoạn thẳng mở (bị chặn hay không bị chặn) đều 
là phần tử của sigma-đại số Borel. Ngược lại, sigma-đại số sinh bởi các 
đoạn thẳng mở cũng chính bằng sigma-đại số Borel. 

iÙ Mọi đoạn thẳng đóng đêu là phần tử của sigma-đại số Borel. Ngược 
lại, sigma-đại số sinh bởi các đoạn thẳng đóng cũng chính bằng sigma- 


đại sô Borel. 


Chứng minh. Giả sử ]a, b[ là một đoạn thẳng mỏ bị chặn của R, 
với a < b. Khi đó tổn tại một dãy số đơn điệu tăng ø = bọ < bị < 
bạ <.... với lim„_,sb„ = b, và ta có thể viết ]a,b[= (J2 ¡]ba—t, bạ], 


từ đó suy ra ]œ,b[€ Ö, bởi vì |b„_+,b„| € với mọi ø. Trong trường 


Z1 
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hợp b = +oœc ta vẫn có thể làm hệt như trên để chứng minh rằng 


a,-+oo|c . Khi øa = —oc, thì tổn tại một đãy sô đơn điệu giảm 
b = bọ > bị > bạ >.... với limạ ¿bạ = —oo, và ta có thể viết 


— oo,b|=]bi, bo|UJP ¡]ba+a, bạ], từ đó suy ra ] — oo,b[c 8. Đôi với 





một đoạn thẳng đóng [a, Ù], ta có ]— œ, ø[€ Ö, ]b, -+oo|e , và [a, b| = 





R\ (— œ,a{[U]b, +oe|), từ đó suy ra [a,b] c Ở. Các khẳng định ngược 


lại (các tập đóng sinh ra sigma-đại sô Ö, và các tập mỏ cũng sinh ra 














sigma-đại số Z) nhường cho bạn đọc làm bài tập. 


Định nghĩa 2.4. Hàm phân phối xác suắt của phân bố xác suắt Px 
trên IR của một biến ngẫu nhiên X là hàm ZƑx : I§ —› [0, 1] cho bởi công 
thức 

x(#):=FÍX sr)= Fx(|}=©$,zÌ): (2.4) 


Tất nhiên, hàm phân phối được xác định duy nhất bởi phân bố 
xác suất. Điều ngược lại cũng đúng: Nếu ta biết hàm phân phối 7x, 
thì ta có thể tính được xác suất Px của các đoạn thẳng đóng và nửa 
mỏ của lR qua các công thức sau 

Px (Ja, b]) =7xÚ) — Zx(a), (2.5) 
Px(la,b) =Zx()— lim Z#x(#), (2.6) 
#—>a— 
và từ đó tính được xác suất của các tập con khác của R. 


Định lý 2.2. Hàm phân phối 7x của một phân bỗ xác suắt tùy ý trên 
R thỏa mãn 4 tính chắt sau: 

1) Đơn điệu không giảm: 7x (z) > Fx(u) với mọi + > ụ, 

2) Liên tục bên phải: lìm,_;¿o-.Fx (œ + e) = Zx (+) với mọi +, 

5) .Htfñ0»> 2-2 x|#}<= D, 
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4) lim; ;:so7xÚ) = 1, 
Ngược lại, mọi hàm số thực trên IR thỏa mãn 4 tính chắt trên là hàm 


phân phôi của một phân bô xác suất trên 


Chứng minh. Tính chất thứ nhất là hiển nhiên: nếu z < g thì 
#x(u) — #x(z) = P(z < X < ) > 0. Tính chất thứ hai có thể phát 
biểu cách khác như sau: nêu z¡ > +: >... là một dãy số đơn điệu 
giảm với z„ —› z khi ø tiễn tới vô cùng thì ta có lim„_;s.Zx(#») = 
Zx(z). Để thây điều đó, ta có thể viết Ƒx(z„)—Zx(+) = Px(Jz, #n]) 
Px(UE „]#e+i, #x]) = XJS„ Px(l#»+¡, zx]). Chuỗi số dương 


3 Px(#x+i,Z:]) 


k=l 


là một chuôi hội tụ, và bởi vậy phần đuôi 2? „ Px (|1, z„]) của nó 
tiễn tới 0 khi ø tiễn tới vô cùng. Tính chất thứ 3 và tính chất thứ 4 có 
thể chứng minh một cách hoàn toàn tương tự. Khẳng định ngược lại 











là bài tập dành cho bạn đọc. 
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Hình 2.1: Năng lượng của các thiên thạch đâm vào bầu khí quyển 


trái đất 
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Bài tập 2.1. Đồ thị|2. 1Ìlà biểu đồ phân bồ xác suất (partial histogram, 
thiếu phần “đuôi”) của mức năng lượng tỏa ra, tính theo đơn vị năng 
lượng mesaton, của các thiên thạch lớn đâm vào bầu khí quyển của 
trái đât) Hãy tính xác suất để một thiên thạch lớn đâm vào bầu 
khí quyển của trái đất có mức năng lượng tỏa ra không vượt quá 7 


megaron. 











2.1.4 Các loại phân bô xác suất trên IR 





Trong nhiều công việc tính toán với biến ngẫu nhiên, ta có thể 
quên đi không gian xác suất ban đầu của biên ngẫu nhiên đó, mà chỉ 
cần biết đến phân bố xác suất trên IR của nó. Các phân bố xác suất 
trên IR có thể được chia làm 3 loại sau: rời rạc, liên tục, và hỗn hợp 


(nửa rời rạc nửa liên tục). 


Định nghĩa 2.5. Một phân bố xác suắt Px trên I được gọi là liên tục 
nếu như hàm phân phối xác suắt 7x là hàm liên tục trên IR. Nó được 
gọi là liên tục tuyệt đôi nếu như như tôn tại một hàm số px : IR — IR_. 
khả tích và không âm, sao cho với mọi a € ]R ta có 


qa 


7t) =yf=edlf= II px(œ)dz 


—CO 


Hàm px : R —> R, thoả mãn điều kiện như trên gọi là hàm mật độ 


của Px. 


Ghỉ chú 2.1. Hàm mật độ của một phân bố xác suất liên tục tuyệt 


đối Px trên IR là duy nhất theo nghĩa xác suất: nếu 7x có hai hàm 





Số liệu của NASA năm 1994. Một thiên thạch lớn là một thiên thạch tỏa ra năng 
lượng ít nhất 1 megaton, bằng 1 quả bom hạt nhân nhỏ. 
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mật độ ø¡ và ø›, thì ø¡ = øs hầu khắp mọi nơi trên IR, tức là tập 
{z €IR,øi(z) # ø2(+)} có độ đo Lebesgue bằng 0. Một phân bô xác 
suất có thể là liên tục mà không liên tục tuyệt đối. (Bài tập: xây dựng 
ví dụ). Tuy nhiên, trong thực tế, khi người ta nói đến một phân bố 
xác suật liên tục trên IR, thường được hiểu là nó liên tục tuyệt đôi, 
tức là được cho bởi một hàm mật độ. Chú ý rằng hàm mật độ chính 
bằng đạo hàm của hàm phân phôi xác suất (hầu khắp mọi nơi). Rất 
nhiều vẫn đề trong thực tế có thể được mô hình hóa bằng các biễn 
ngẫu nhiên với phân bồ xác suất liên tục, ví dụ như nhiệt độ của nước 


biển, giá dầu hỏa, sản lượng điện, trọng lượng của trứng gà, v.v. 


Định lý 2.3. Giả sử X có phân bỗ xác suắt liên tục với hàm mật độ 
ox, và ƒ : IR — IR là một đơn ánh khả vi liên tục trên I§ trừ một số hữu 
hạn các điểm. Khi đó Y = ƒ(X) cũng có phân bố xác suắt liên tục, với 
hàm mật độ cho bởi công thức sau: 
DXÊP) „say? 
0y (U) = tại điểm  = ƒ(z) (2.7) 
I/()| 
Công thức trên chẳng qua là công thức đổi biến trong tích phân, 
và sinh ra từ công thức đƒ(+) = ƒf(z)dz. 





Một điểm z c IR được gọi là một điểm hạt của một phân bố xác 
suất Px nếu như Px(z) > 0. Bổ để sau cho thấy một phân bô xác 


suất là liên tục khi và chỉ khi nó không có điểm hạt: 


Định lý 2.4. Giả sử 7x là hàm phân phối xác suắt của một phân bỗ 
xác suất Px trên ïR. 


Ù) Với mọi z € ]R ta có 


Px(z) =7x(z)— lim Z#x(0). (2.8) 


U->z— 
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Ù) Hàm 7x là hàm liên tục trên R khi và chỉ khi Px (+) = 0 với mọi 


z(€lR 


Chứng minh. ¡) Nếu zọ < z¡ < zs < ... là một dãy số đơn điệu 


tăng có giới hạn là z, thì ta có 


lim„_›oo.Fx (0) = #x(zo) + limn_—¿œ ?x (|zo. su D) 


= #x(#o) + lima eo } p—1 Px (|#&—1;2£]) 
—= Z#x(zo) + b3] Px(l#—p-1: E1 |) — Z#x(zo) HR +x(Jc 1|) #k]) 
= Z#x(zo) + Px(|zo, z|) = Px( = oo, #|) 





= Px(|T— œ,#]|) — Px(ø) = #x(#) — Px(z), 


từ đó suy ra công thức trong bổ để. Để chứng minh phần thứ hai của 
bổ đề trên, nhắc lại rằng hàm phân phối xác suất luôn luôn liên tục 
bên phải. Bỏi vậy nó liên tục khi và chỉ khi nó liên tục bên trái, tức là 
khi và chỉ khi Px(z) = Zx(z) — limy_;„_ x () = 0 với mọi z € IR. 


Trong trường hợp phân bồ xác suất 7x không liên tục, gọi 
Fx= 1ử € R|Px(z) > 0} (2.9) 


là tập hợp các điểm hạt của nó (tức là tập hợp các điểm gián đoạn 
của hàm phân phôi xác suất). Khi đó /{x là tập hữu hạn hoặc cùng 


lắm là đêm được, vì Px(4) = „cv Px() < 1. 


Định nghĩa 2.6. Một phân bó xác suất Px được gọi là rời rạc nếu 
như nó tập trung trên tập hợp các điểm hạt của nó: Px(Ax) = 1, 
?x(R\ Ax) =0. 


Z ^ HÀ Z LŠ ^ -Ã Ẩ .ÐA .-a .LP 
Ví dụ 2.6. Phân bô xác suât trên IR của biên ngầu nhiên “điểm kiểm 


tra” trong ví dụ “bài kiểm tra trắc nghiệm” ở mục trước là một phân 
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bố rời rạc tập trung ở 6 điểm: 0,1,2,3,4,5. (Bài tập: tính các xác suất 


của 6 điểm đó). 


Giả sử Px là một phân bô xác suất bất kỳ trên IR, với hàm phân 


phối Zx. Khi đó ta có thể viết: 
#x(z) = Dx(z) +Cx(z) (2.10) 


với Dx(z) = Px(|— oo,z]\ Kx) gọi là phần rời rạc của 7x, và 
Cx(z) = #Zx(z) — Dx(z) gọi là phần liên tục của 7x. Phân bố Px 
được gọi là hỗn hợp nếu như cả hai phần rời rạc và liên tục đều 
khác 0. Nêu phần liên tục không phải là liên tục tuyệt đối (không 
viết được dưới dạng tích phân của một hàm không âm), thì ta có thể 
tách nó tiếp thành tổng của phần liên tục tuyệt đối và phần liên tục kỳ 
dị, nhưng chúng ta sẽ không đi vào chỉ tiết ỏ đây. 

Ví dụ 2.7. Trong xe ô tô thường có kim chỉ mức xăng, dao động trong 
khoảng từ 0 (0%, tức là hết xăng) đến 1 (1 00%, bình xăng đây). Mức 
xăng được kim chỉ vào có thể coi là một biến ngẫu nhiên nhận giá 
trị trong đoạn thẳng [0. 1] với phân bồ xác suất liên tục. Tuy nhiên, ở 
một số xe ô tô cũ, kim bị hỏng, có lúc nó chỉ đúng mức xăng nhưng 
có lúc nó bị tắc ở chỗ sô 0 tuy rằng xe còn xăng. Khi đó, phân bố xác 
suất không còn là liên tục nữa mà là hỗn hợp, với "hạt" tại điểm 0. 
Bài tập 2.2. Giả sử biến ngẫu nhiên X có phân bố xác suất liên tục 
với hàm mật độ øx sau : 0x(+) = 0 khi |z| > 1và øx(z) = 1— |z| khi 
lz| < 1. Tìm hàm mật độ của phân bố xác suất của biễn ngẫu nhiên 
Y = arcsin(z). 

Bài tập 2.3. Giả sử biễn ngẫu nhiên X có phân bố xác suất liên tục và 


đối xứng, theo nghĩa X và — X có cùng phân bố xác suất. Chứng minh 


vớ 


Chương 2. Biến Ngẫu Nhiên 


rằng hàm phân phối xác suất của X thỏa mãn tính chất Zx(—z) + 
Z#x(z) = 1 với mọi z e IR. Điều này còn đúng không nếu phân bố xác 


suất của X không liên tục? 


2.2. Một số phân bô xác suất thường gặp 


Nhắc lại rằng, phân bố nhị thức với các tham số ø,p là phân bố 
xác suất P(k) = C#pÈ(1 — p)”. trên không gian © = {0,1,...,ø}. Nó 
cũng có thể được coi như một phân bố rời rạc trên IR tập trung tại các 
điểm 0,1,...,m với các xác suât như trên. Tương tự như vậy, phân 
bố Bernoulli với tham số p có thể được coi như một phân bố xác suất 
trên JR tập trung tại hai điểm 0,1 (hoặc hai điểm nào đó khác), với 
các xác suất (1) = p và P(0) = 1— p. Phân bô Bernoulli và phân bố 
nhị thức là những phân bồ rất hay gặp trong thực tế. Ở đây, chúng ta 
sẽ thảo luận thêm một số phân bồ rời rạc và liên tục phổ biên khác 


trên IR. 


2.2.1 Phân bô hình học và phân bố nhị thức âm 


Định nghĩa 2.7. Phân bổ hình học với tham số p({0<p<1)là 
phân bỗ xác suắt rời rạc tập trung tại tập hợp các số tự nhiên, cho bởi 
công thức sau: 

P(k) = p(L— p)*"! vkenN. G.11) 


Y nghĩa của phân bô hình học là: nó là phân bô xác suât của “sô 
lần thử cho đên khi thành công”, nêu như xác suât thành công của 


mỗi lần thử là p. 


78 


2.2. Một số phân bỗ xác suắt thường gặp 


Ví dụ 2.8. Một người chơi trò tung vòng vào cổ chai, tung đến bao 
giờ trúng thì thôi. Xác suất để tung trúng mỗi lần là p. Gọi 7 là số lần 
phải tung cho đến khi tung trúng. Khi đó 7 là một biến ngẫu nhiên 
nhận giá trị trong Ñ. Xác suất để sao cho tung k — 1 lần đầu trượt, 
nhưng lần thứ k trúng, là (1 — p)*~1p. Như vậy phân bố xác suất của 
T chính là phân bô hình học với tham số ø. 


Nếu thay vì tính số lần thử cho đến khi có 1 lần thành công, ta 
tính tổng sô lần thử thắt bại i: cho đến khi có tổng cộng z lần thành 
công (z c Ñ) thì ta có một biến ngẫu nhiên mới, nhận giá trị trong 


Z.¡, với phân bố xác suất sau: 
PŒ) = Cễ.„_+p”(1 — p)ˆ 


Nhị thức Newton C?.„¡ trong công thức trên là sô cách chọn ra 
r— 1 phần tử từ tập hợp {1,2,...,k-+z— 1}. (Mỗi cách chọn như vậy 
ứng với một tình huồng, với k lần thất bại và z — 1 lần thành công 
trong số k + r — 1 lần thử đầu tiên, và lần thử thứ k + r thành công). 
Các nhị thức Newton CŒ? +„_¡ CÔN CỔ thể viết dưới dạng 0) 


+r—1 
Do Vi bối ` 1È r).(—r ĐH r—k+#1) = (—1)*C*,, và chúng 











xuất hiện trong khai triển Taylor sau: 


\> 


q—g) "= 


> 
lI 


0 


Trong khai triển Taylor trên, nêu đặt ạ = 1 — p và nhân cả hai về với 


?', thì ta được 


œ œ° 
=À I1 JSC” (1e =À_.7( P(k 
k=0 k=0 
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Chú ý rằng khai triển Taylor trên có giá trị (và hội tụ khi |ạ| < 1) cả 
khi mà z > 0 không phải là số nguyên. Các công thức trên dẫn đến 


định nghĩa sau: 


Định nghĩa 2.8. Giả sử 0 < p < 1 và r > 0. Khi đó phân bố xác suắt 
rời rạc cho bởi công thức 


PŒ) = Œ§¿„_1p'(1— p)* = (TU) *CÈ„p'(1— p)* (2.12) 


với mọi k © Z., được gọi là phân bô nhị thức âm với các tham số r và 


?. 


Tất nhiên, phân bó hình học có thể coi là trường hợp đặc biệt của 
phân bồ nhị thức âm, với z = 1 (và trên Ñ thay vì trên Z.., tức là có 
cộng thêm 1 vào biến ngẫu nhiên). 

Bài tập 2.4. Kiểm tra công thức sau: hàm phân phối xác suất của 
phân bồ hình học với tham số p cho bởi công thức Z(z) = 0 nêu 
z < 0 và Ƒ(z) = 1— (1— p)Èl nêu z > 0. Ở đây [z] là phần nguyên 


của SỐ z. 


2.2.2 Phân bố Poisson 


Định nghĩa 2.9. Một biến ngẫu nhiên X được gọi là có phân bỗ Pois- 
son (đọc là Poa-Sông) với tham số À, nếu như các giá trị của nó là các 
số nguyên không âm, và với mọi k € Z., ta có: 
UE 


= BI" (2.13) 


P(X =k) 


Ghi chú 2.2. Phân bô Poisson mang tên của nhà toán học và vật lý 


người Pháp Siméon Denis Poisson (1781-1840). Trong lý thuyết xác 
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suất, Poisson được biết đến nhiều nhất bởi phân bố Poisson, và quá 
trình Poisson (một quá trình ngẫu nhiên ứng với phân bố này). Tên 
gọi luật số lớn (của các luật sô lớn, mà chúng ta sẽ tìm hiểu trong 
Chương|4) cũng là do Poisson đặt ra. 





P0ISSDN, 2e. : 


Hình 2.2: Siméon Denis Poisson 


Phân bố Poisson là giới hạn của phân bồ nhị thức với các tham số 


G1 


Chương 2. Biến Ngẫu Nhiên 


p = Àj/n và n, khi n tiễn tới vô cùng. Thật vậy, ta có 





z nÌ X= 
Cÿ(Vn)E(1— AJn)"hE = TT O/n)q — Ajn)n4 
AÊ n{n—1)...(n— k+1 vẽ ñ 
=1 =9) ¬ )(1— A/n)*(1 — A/n)". 


Khi ø tiễn tới vô cùng thì (ø(»— 1)... (ø— k+1)/n*)(1— A/n)~* tiên 
tới 1 (k ở đây là cô định) và (1 — A/n)" tiễn tới e^, bởi vậy ta có 
k 


Ầ 
lim GŒ.(/n)°—A/n}h* = TẾ (2.14) 


Xem đồ thị minh họa trên hình|2.3|cho trường hợp À = 3,5, n = 3ð, 
ø=0,1. 

Mô hình phân bố Poisson là mô hình thường được dùng cho các 
biến ngẫu nhiên dạng “số sự kiện xảy ra trong một khoảng thời gian 


nào đó”. 


Ví dụ 2.9. Biên ngẫu nhiên “số vụ tai nạn giao thông xảy ra trong 
một ngày” ở một vùng nào đó có thể được mô hình hóa bằng phân 
bố Poisson. Ta sẽ giả sử các tai nạn giao thông xảy ra một cách ngẫu 
nhiên, độc lập với nhau, và trung bình mỗi ngày có À vụ tai nạn. Ta 
sẽ chia 24 tiếng đồng hồ trong ngày thành ø khoảng thời gian (n là 
một số rất lớn), để sao cho có thể coi rằng trong mỗi khoảng thời 
gian có nhiều nhất 1 vụ giao thông xảy ra, và khả năng xảy ra tai nạn 
giao thông trong mỗi khoảng thời gian bằng A/øœ. Khi đó tổng sô tai 
nạn xảy ra trong ngày tuân theo phân bố nhị thức với các tham số 
m,p = À/n, và khi cho ø tiễn tới vô cùng ta được phân bố Poisson. 
Tất nhiên phân bố Poisson không thể là phân bố xác suất chính xác 


của vân để (vì sô người là hữu hạn, và sô tai nạn bị chặn trên bởi 
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0.25 
Poisson(3.5) m—— 


Binomial(35, 0.1) —x— 
0.2 l 


0.15 k 
01 


0.05 | 








Hình 2.3: Các phân bố Poisson(3.5) và Binomial(35,0.1) 


sô người chứ không lớn tuỳ ý được), nhưng nó là phân bô gần đúng 


thuận tiện cho việc tính toán. 


2.2.3. Phân bố đều (trường hợp liên tục) 


Định nghĩa 2.10. Giả sử a và b là hai số thực, với b > a. Khi đó phân 


bố đều (uniorm distribution) trên đoạn thẳng ]a,b| là phân bố xác 
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suắt liên tục với hàm mật độ p(z) sau: 


=:-›. KHE #® 'P 
DỊ Si Dgg St vn, (2.15) 
0 khi z < a hoặc z > Ùb 


Phân bồ xác suất đều trên đoạn thẳng ]a, b[ hay được ký hiệu là 
U(a,b). 


Ghi chú 2.3. Trong định nghĩa trên, thay vì lấy đoạn thẳng mỏ ]a, b|, 
có thể lây đoạn thẳng đóng |a, b| hoặc đoạn thẳng nửa mỏ ]a, b| hoặc 


[a, b[ cũng được. VỀ mặt xác suất không có gì thay đổi. 


Ví dụ 2.10. Vị trí của một người đi bộ trên một đoạn đường có thể 
được mô hình hóa bằng một biến ngẫu nhiên với phân bố đều, nếu 
như ta không có thông tin gì ngoài thông tin người đi bộ đang ở trên 
đoạn đường đó. 


Khái niệm phân bố đều có thể mở rộng lên trường hợp nhiều 
chiều: không gian xác suất là một miễn trong R” (n > 2), và xác suất 


^ -À ^ ^ 7+ „7 -À -À Z 
của một miễn con tỷ lệ thuận với thể tích (» chiêu) của miền con đó. 


Bài tập 2.5. Giả sử X có phân bố đều U(0, 1), và Y là một biến ngẫu 
nhiên bắt kỳ. Chứng minh rằng tổn tại một hàm số ø sao cho ø(X) và 
Y có cùng phân bồ xác suất. (Bài tập này có ý nghĩa thực tế trong việc 
làm giả lập (simulation) các biến ngẫu nhiên: dùng random number 
generator (chương trình tạo sô ngẫu nhiên) trên máy tính để giả lập 
một biến ngẫu nhiên với phân bố đều U (0, 1), rồi qua đó giả lập được 


mọi phân bô xác suât, qua các hàm sô thích ứng). 
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2.2.4. Phân bố normal 


Định nghĩa 2.11. Phân bố xác suắt normal (còn gọi là phân bố chuẩn 
, hay phân bỗ Gauss) trên I với trung điểm ¡ và độ lệch chuẩn ø là 
phân bố liên tục với hàm mật độ sau: 


re. 
0() = — exp( ( mm ). (2.16) 





Ký hiệu thường dùng để chỉ phân phối xác suất normal là: ,V(u, ø?). 
Phân bố normal (0, 1) (với  = 0, ø2 = 1) được gọi là phân bố nor- 
mai chuẩn tắc . 


02 03 0.4 


E1. .Ph.n.. 


13.6% 13.6% 





00 0.1 


-3g -20g -10 HỆ lơ 20 3ơ 
Hình 2.4: Hàm mật độ của phân bố normal 


Đồ thị của hàm mật độ của phân bô normal có hình cái chuông, 
và bởi vậy phân bố normal còn được gọi một cách nôm na là phân 
bố hình cái chuông. Trung điểm của cái chuông này chính là điểm 
z = u, và độ cao của chuông chính bằng n Nếu ø càng nhỏ thì 


ơV27 
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chuông càng cao và càng “hẹp”, và ngược lại ø càng lớn thì chuông 
càng thấp và càng bè ra. 

Hình vẽ minh họa cho thây hầu hết xác suất của một phân 
bố normal nằm trong đoạn [¿ — 3ơ, ¿ + 3ơ]. Chỉ có không đến 0,3% 
nằm ngoài đoạn đó. Nói cách khác, nêu X là một biến ngẫu nhiên có 
phân bố xác suất normal với các tham số u, ơ, thì với xác suất 99,7% 
ta có thể tin rằng giá trị của X nằm trong đoạn [u — 3ơ,u + 3ơ]: 
Pí(u — 3ơ < Ä < + 3ø) = 99, 7%. 

Phân bố normal là một trong những phân bồ xác suất quan trọng 
nhất, vì nhiều phân bố xác suất gặp trong thực tế có dáng điệu khá 
giống phân bố normal, ví dụ như phân bố của chiều cao của đàn ông, 
phân bồ của chỉ số IQ (chỉ số trí tuệ), phân bố của giá chứng khoán 
trong tương lai, v.v. Khi ø tiễn tới vô cùng và p cô định, thì đáng điệu 
của phân bô nhị thức với các tham số 0, p cũng ngày càng gần giông 
phân bố normail. Ví dụ, lây p = 0,9. Khi n nhỏ thì phân bố nhị thức 
với các tham sô ø và p = 0,9 có đáng điệu khác xa phân bố normai, 
nhưng khi ø = 100, thì đáng điệu của phân bố nhị thức trông đã rất 
gần giông phân bố normal, như thể hiện trên Hình|2.5| 

Các định lý giới hạn trung tâm mà chúng ta sẽ để cập đến trong 
Chương |4| sẽ cho chúng ta cơ sở lý thuyết để hiểu tại sao có nhiều 


phân bố xác xuất trong thực tế trông giỗng phân bố normal. 


Ví dụ 2.11. Hình là biểu đồ tần số (histogram) của huyết áp 
của người, trong một thí nghiệm đo huyết áp 1000 người. Tần số 
(frequency) của một giá trị tức là sô lần xuất hiện giá trị đó trong 
dãy sô các kết quả. Nếu chúng ta coi không gian xác suất ở đây là 


có 1000 phần tử, với xác suât của một phần tử là 1/1000, thì bảng 
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Binomial distribution, n=100, p=.9 


Density 
002 004 006 008 010 0.12 


0.00 





5 80 85 80 85 100 


Hình 2.5: Phân bố nhị thức với ø = 100, p = 0,9 


Ầ HA ^ ^ 2; 7 Ã Nà .Á Ẩ .A 
tân sô trên cho ta bảng phân bổ xác suât rời rạc của biên ngâu nhiên 
"huyệt áp" H: xác suât của sự kiện ï = z băng tân suât (relative 

2 À HA é „Ä HA . r HA Z ` Ũ 
frequencyt2)) của z. Tần suất là tần sô chia cho tổng số (tức là chia 





(Từ ƒrequency tiễng Anh vừa có nghĩa là tần suất vừa có nghĩa tần số. Để phân 
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cho 1000 ở đây). Vì đổ thị có hình gần giỗng hình cái chuông, nên ta 
thầy phân bố xác suất của biến "huyết áp" trong thí nghiệm này có 


thể được xấp xỉ khá tôt bằng một phân bố normal. 


F 60 — 
: 50 
q 40 

30 
" 20 


ý 10 








60 +2 a4 96 108 120 
LIEF 


Hình 2.6: Biểu đồ tần sô huyết áp 


Ghi chú 2.4. Để có một phân bố xác suất gần giông phân bố normal, 
cần phải có một sự “thuần nhất” nào đó trong biên ngẫu nhiên. Ví 
dụ, nếu ta có 1 thùng táo chín cùng một giống táo, thì khi xét biến 
ngẫu nhiên “đường kính của quả táo” trên thùng táo đó, ta có thể 
được một phân bô gần giỗng phân bố normal. Nhưng nếu ta trộn 2 
thùng táo thuộc 2 giống táo khác nhau, một giống táo to một giông 


táo nhỏ, thì phân bố xác suất của biên “đường kính” trong đồng táo 





biệt, tần suất có khi được gọi là relative frequeney, hoặc là frequency rate. 
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trộn lẫn này không còn là normal được nữa, mà nó phải có 2 “đỉnh”, 
1 đỉnh ứng với đường kính trung bình của giống táo to và 1 đỉnh ứng 
với đường kính trung bình của giỗng táo nhỏ. 

Bài tập 2.6. Giả sử X là một biến ngẫu nhiên tuân theo luật phân bố 
normal ,V(/, ø2). Chứng minh rằng biên ngẫu nhiên Z = (X — #u)/ø 


tuân theo phân bô normal chuẩn tắc ,V(0, 1). 


2.2.5 Phân bố mũ 


Định nghĩa 2.12. Phân bố mũ (exponential distribution) với tham số 
À là phân bố xác suắt liên tục tuyệt đôi trên I cho bởi hàm mật độ sau: 


Ae"*_ khix >0 


= | 2.17 
BẾP F khi œ < 0 Xi ng 


Hàm phân bồ xác suất Z của phân bố này như sau: Z(z) = 0 khi 
z< 0, và khi z > 0 thì 


j0) II Ae đt =1— e3, (2.18) 
0 


Phân bô mũ có thể được xem như là dạng liên tục của phân bố 
hình học: phân bố hình học là rời rạc còn phân bố mũ là liên tục, 
nhưng hàm phân phối xác suất của hai phân bô này có dáng điệu 
tương tự nhau. 

Phân bố mũ có thể được dùng để làm mô hình xác suất cho những 
biên ngẫu nhiên kiểu “khoảng cách giữa hai lần xuất hiện”, ví dụ như: 
khoảng cách thời gian giữa hai cú điện thoại gọi đến, khoảng cách 
giữa hai gen đột biến kế tiếp trên một dải DNA, v.v. 
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Bài tập 2.7. Giả sử biên ngẫu nhiên X có phân bố mũ với tham số A, 
và c > 0. Chứng minh rằng cX cũng có phân bô mũ với tham số À/c. 
Bài tập 2.8. Giả sử biên ngẫu nhiên X có phân bố mũ với tham số A, 


và s và £ là hai số dương. Chứng minh rằng 
P({X >s+ft|X >s)= P(X >t) 


Giải thích tại sao đẳng thức này gọi là tính chất không có trí nhớ (lack 
of memory property) của phân bố mũ. 

Bài tập 2.9. Giả sử X là một biến ngẫu nhiên liên tục với hàm phân 
phối xác suất liên tục ƒ = Zx. Chứng minh rằng: 

Ù ƒ(X) có phân bô xác suất đều trên đoạn thẳng [0, 1]. 

iD — In ƒ(X) có phân bố mũ. 


2.2.6 Phân bố Pareto 


Vilfredo Pareto (1848-1923) là một nhà kinh tế người Italia. Ông 
ta quan sát thầy rằng, phân bố tài sản trên thế giới rât không đều, 
và “80% tài sản là do 20% người làm chủ” (80% nhân dân còn lại 
chỉ làm chủ 20% tài sản). Quan sát này mang tên nguyên tắc Pareto 
hay nguyên tắc 80-20 (có khi nó còn trổ thành nguyên tắc 90-10). 
Pareto đưa ra mô hình phân bố xác suất liên tục hóa sau cho biến 
ngẫu nhiên “siá trị tài sản của một người”: 

Định nghĩa 2.13. Phân bô Pareto với tham số œ > 0 là phân bố liên 
tục trên IR với hàm mật độ sau: 
khi +z > 1 


p(œ)= 4 z=?1 (2.19) 
0 khi + < 1 
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Hình 2.7: Vilfredo Pareto 


Phân bố Pareto còn được dùng làm mô hình phân bố xác suất gần 
đúng cho rất nhiều biên ngẫu nhiên khác, vị dụ như: kích thước của 
các hạt cát, các thiên thạch, các khu dân cư, dự trữ dầu hỏa của các 


mỏ dâu, mức độ thiệt hại của các vụ tai nạn, v.v. 


Bài tập 2.10. Chứng minh rằng nếu X có phân bố Pareto với tham số 
œ, và Y = X3 với s > 0, thì Y cũng có phân bố Pareto, và tìm tham 


sô của phân bô này. 


Bài tập 2.11. Giả sử X có phân bố xác suất đều U/(0, 1). Chứng minh 
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rằng Y = 1/(1T— X) có phân bố Pareto với tham số œ = 1. 


2.3. Kỳ vọng của biên ngẫu nhiên 
2.3.1 Trường hợp rời rạc 


Khi ta có một biến ngẫu nhiên, ta có thể nghiên cứu các tính chất, 
đặc trưng của nó, để rút ra các thông tin, kết luận nào đó. Một trong 


những đặc trưng quan trọng nhất là giá trị kỳ vọng. 


Định nghĩa 2.14. Giá trị kỳ vọng của một biến ngẫu nhiên X, ký hiệu 











là E(X), chính là trung bình cộng của biến ngẫu nhiên đó trên không 





gian xác suất các tình huông. 


Từ định nghĩa có thể suy ra được rằng, hai biên ngẫu nhiên có 
cùng phân bồ xác suất trên IR thì có cùng kỳ vọng. Bỏi vậy, thay vì nói 
về kỳ vọng của một biến ngẫu nhiên, ta cũng có thể nói về kỳ vọng 
của một phân bố xác suắt trên IR. 

Trong trường hợp không gian xác suất các tình huống là một tập 
hợp hữu hạn hoặc đếm được, © = {œ,œ¿,...} với các xác suất P(œ;¡) 
Œ), P(/;) = 1), thì công thức tính giá trị kỳ vọng (trung bình cộng) 


của một biên ngâu nhiên X : © -› IR là 














B(X) =À ` X(@¡)P(00). (2.20) 


Ví dụ 2.12. Trò chơi để (một trò đánh bạc): trong 100 số để sẽ chỉ có 1 
sô thắng, 99 số thua. Thắng thì được 70 lần tiền đặt cọc. Thua thì mất 


tiền đặt cọc. Nếu đặt cọc 7 tiền, thì kỳ vọng số tiền nhận lại được là 
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99% x 0+ 1% x 70.7 = 0, 7.7'. Kỳ vọng lãi (lỗ) là 0, 7.7— 7 = —0, 3.T. 
Tức là đặt cọc 7 tiền chơi đề, thì kỳ vọng là bị thua 0, 3.7. 

Ví dụ 2.13. Giá trị kỳ vọng của phân bố Poisson P(X = k) = Ấy re~À 
là E(X) = ^ Thật lu S(X) = X,kP(W S k) = S,ke Àt = 
cm 3 3‡>I (Œ~T CA s10 " h=e ÀÀeÀ=À. 

Ví dụ 2.14. Giá x kỳ vọng của Ki hình học P(7' = k) = p(1— 
Đ) se Tà 









































=À kp.(1—p)*"!= l/p. 


Điều này phù hợp với suy luận trực giác rằng, nêu xác suât để ném 
vòng một lần trúng cổ chai là p, thì trung bình phải ném vòng 1/p 


Ầ Z7. Z r? ' 
lần mới trúng cổ chai. 


Ghi chú 2.5. Trong trường hợp không gian xác suất rời rạc Q = 
{¿,œ¿,...} có vô hạn các sự kiện, khi định nghĩa kỳ vọng, chúng 
ta đòi hỏi chuỗi ÿ`?°, X(œ¡).P(œ¡) phải là chuỗi hội tụ tuyệt đối, 
có nghĩa là chuỗi )ˆ?°; |X(œ;)|.P(œ;) phải hội tụ. Trong trường hợp 
chuỗi }ˆ°, X(œ;).P(a;¡) không hội tụ tuyệt đôi, thì kỳ vọng không 
được xác định hoặc là bằng vô cùng. Lý do để đòi hỏi điều kiện hội tụ 
tuyệt đồi là, chúng ta muôn tổng của chuỗi $3“, X(6¡).P(6¡) phải 
hữu hạn và không phụ thuộc vào thứ tự của các số trong tổng, tức là 
nêu có thay đổi cách đánh số các sự kiện, thì vẫn phải ra cùng một 
tổng. Các chuỗi thỏa mãn điều kiện này chính là các chuỗi hội tụ 


tuyệt đối. 


Định lý 2.5. Một số tính chắt cơ bản của giá trị kỳ vọng: 


Ù) Kỳ vọng của một hằnh số c (biến ngẫu nhiên chỉ nhận 1 giá trị chính 
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là hăng sô đó: 














#(c) =e. (2.21) 


i) Tuyến tính: Nếu X,Y là hai biến ngẫu nhiên và a, b là hai hằng số 
thì 

















E(aX + bY) = aE(X) + bE(Y). (2.22) 























Ù) Đơn điệu: Nếu X > 0 thì E(X)>0. Tổng quát hơn, 








X>Y=E(X)>E(). (2.23) 




















Định lý trên đúng trong trường hợp tổng quát, khi mà các giá trị 
kỳ vọng được xác định. Chứng minh của nó trong trường hợp rời rạc 
tương đối hiển nhiên. 

Khi chúng ta sử dụng hai mô hình không gian xác suất khác nhau 
để nghiên cứu cùng một biến ngẫu nhiên, thì không phải vì thế mà 


kỳ vọng của nó thay đổi. Nói một cách chính xác hơn, ta có: 


Định lý 2.6. Giả sử X : (Q,P) —› IR là một biến ngẫu nhiên với 
không gian xác suắt ©, và ó : (O, P¡) —> (Q,P) là một ánh xạ bảo 
toàn xác suắt từ một không gian xác suắt (©\, Pị) lên (O\, Pị). Đặt 
Xị = Xoó: (O¡,Dì) — ]R là biến ngẫu nhiên giống X nhưng với 
không gian xác suắt (Q, Pạ). Khi đó 














E(Xì) = E(X). (2.24) 














Định lý trên cũng đúng trong trường hợp tổng quát. Chứng minh 
của nó tương đôi hiển nhiên trong trường hợp © và ©¡ là các không 


gian xác suât rời rạc, và là bài tập dành cho bạn đọc. 
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Bài tập 2.12. Một doanh nghiệp đầu tư phát triển một sản phẩm mới, 
xác suất thành công là 30%. Chỉ phí đầu tư bỏ ra là 100 nghìn USD. 
Nếu không thành công thì mắt chỉ phí đầu tư mà không thu về được 
gì, nhưng nêu thành công thì thu về được 1 triệu (trước khi trừ đi chỉ 
phí đầu tư). Tính kỳ vọng lợi nhuận từ vụ đầu tư này. 

Bài tập 2.13. Xây dựng một ví dụ đơn giản với hai biến ngẫu nhiên 
X,Y rời rạc sao cho E(XY) # E(X)E(Y). 
































Bài tập 2.14. Trong một rổ có 99 quả bóng đánh số từ 1 đến 99. Lôi 
ra từ trong rổ 5 quả bóng một cách ngẫu nhiên. Gọi X là số nhỏ nhất 
hiện lên trên 5 quả bóng được lôi ra, và Y là số lớn nhất hiện lên. 

¡) Tính phân bố xác suất của các biên ngẫu nhiên X và Y. 

iD Chứng minh rằng, với mọi m,n € Ñ,m < n, ta có )}?_„ C7" = 


mn~+]1 
Càng › 


iii) Dùng ii) để tính E(X). 














Bài tập 2.15. Một người tập bóng rổ, đứng từ một chỗ ném bóng vào 


L$ P` ⁄Z HÀ Z Z Ẩ: 1À ` . ` ÃÂ TẢ Z 
rõ 6 lân. Xác suât ném trúng môi lân là 2/3. Gọi X là sô lân ném 











trúng, Y là số lần ném trượt, và Z = X — Y. Hãy tính kỳ vọng E(Z) 





của Z bằng hai cách khác nhau: một cách thông qua phân bố xác 
suất của Z, và một cách không dùng đến phân bồ xác suất của Z. 

Bài tập 2.16. (Entropy). Giả sử có 1 trò chơi giữa hai người A và B 
như sau: A chọn 1 số tự nhiên trong các số từ 1 đến 2” (» là một số 
có định nào đó), và B phải tìm xem là số nào. B có thể hỏi A bất cứ 
câu hỏi nào về sô mà A chọn, mà có thể phát biểu lại dưới dạng “số 
đó có thuộc một tập con X nào đó của tập các số tự nhiên trên hay 
không, và A sẽ trả lời “có” hoặc “không” cho các câu hỏi của B. (Ví dụ 


có thể hỏi: sô đó có lớn hơn 5 hay không, là số chẵn hay không, v.v.) 
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1) Chỉ ra một chiến thuật (mộ cách hỏi), để sau khi hỏi đúng 0w lần, B 
tìm được số mà A chọn. (Số ø ở đây được gọi là entropy, hay là lượng 
thông tin). 

iD Chứng minh rằng, với bắt kỳ chiến thuật nào của B, thì kỳ vọng về 
sô lần phải hỏi cho đến khi tìm được sô mà A chọn là một số lớn hơn 
hoặc bằng nø. 

(Đầu tiên hãy thử làm cho các trường hợp œ = 2, ø = 3, rồi làm cho 
trường hợp tổng quát). 


2.3.2 Trường hợp tổng quát: tích phân trên không gian 
xác suất 


Trong trường hợp tổng quát, công thức tính giá trị kỳ vọng được 
viết dưới dạng tích phân Lebesgue của X trên không gian xác suất 
(1E); 














R(X) = II XdP. (2.25) 
ỌỘ 


Định nghĩa của tích phân Lebesgue như sau. Giả sử có một hàm 
sô Ƒ': (Q,P) —› IR đo được trên một không gian xác suất (O, P) với 
độ đo xác suất 7. Nhắc lại rằng, tính chất đo được có nghĩa là tỔn tại 
P(F~}(]ø, b])) với mọi a,b € ]Ñ, ø < b. 

Trước hết ta xét trường hợp Ƒ' là một hàm bị chặn: tồn tại một số 
dương Ä⁄/ € R„ sao cho |Ƒ'(œ)| < Mƒ với mọi œ € ©. 

Một phân hoạch (sự chia nhỏ) của đoạn thẳng ] — A/, A⁄] là một 
dãy sỐ ao = —Ì < øị < aạ <... < a„ạ = Mĩ hữu hạn đơn điệu tăng 
nào đó, sao cho số đầu bằng —1⁄ và số cuôi bằng M. Nói cách khác, 


ta chia đoạn thẳng ] — A⁄, M] thành một hợp không giao nhau của 
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các đoạn thẳng nửa mỏ ]|a;, ø;;¡]. Khi có một phân hoạch như vậy, ký 


.ÐA ` z 2ˆ 1A ..Á 
hiệu là ø, ta có thể lập hai sô sau: 


1z() = À ai.P(— !(Jai, 8+1))), (2.26) 
=0 
và : 
2Jz(Œ) = ` a+i.P(f(lá, 8+1))). (2.27) 
=0 


Ký hiệu Ð là tập hợp tất cả các phân hoạch của đoạn thẳng ] — 
A, AM]. Dễ thây rằng 


Tz(g) S Ja(F) Vøơ,ò €3. 


(Bài tập: Chứng minh bất đẳng thức trên). Hơn nữa, nêu phân hoạch 
ơ thỏa mãn tính chất đ¿+1 — d¡ < € với mọi i, thì ta cũng có J„(g) — 
l„¿(g) < c. Từ đó suy ra sup„cs lz(F) = infses;.J;(F). Theo định 
nghĩa, tích phân Lebesgue của Ƒ' trên (O, P) chính là giá trị chung 
đó: 


J Hút =supÏ¿(P) = mĩ Jạ(F): (2.28) 
ọ ơc» òc> 


Trong trường hợp Ƒ' không bị chặn, thì đầu tiên ta thay "' bằng 


các hàm bị chặn 
Tự, n(0) := min(max(—N, F'(u)), M), (2.29) 


(M,N >0), rồi định nghĩa 


| PAP= vu jm, „| FuvAP (2.30) 


Lới 


Chương 2. Biến Ngẫu Nhiên 


nêu như giới hạn đó tổn tại. Trong trường hợp giới hạn đó tổn tại 
và hữu hạn, thì ta nói Ƒ' là hàm khả tích. Khả tích có nghĩa là định 
nghĩa được tích phân, và các cách định nghĩa khác nhau (qua các 
cách lây giới hạn khác nhau) cho cùng một kết quả hữu hạn. Hàm 
Ƒ' khả tích khi và chỉ khi giá trị tuyệt đối của nó có tích phân hữu 
hạn: Íq¿ |F|dP < s. (Đây là một định lý trong giải tích, chứng minh 
không khó). 

Trong trường hợp © là một miễn trong IR“ với thể tích bằng 
1, phân bố xác suất P là phân bố đều trên đó (xác suất của một 
miễn con của © là thể tích của miễn con đó), và Ƒ là một hàm liên 
tục bị chặn, thì tích phân Lebesgue trùng với tích phân (Riemann) 
nhiều chiều thông thường. Trong trường hợp tổng quát, thì tích phân 
Lebesgue là mỏ rộng của khái niệm tích phân Riemann. 

Tất nhiên, trong trường hợp © = {œ.œạ....} là một không gian 


xác suất rời rạc, ta có 
' FdP =À ` P(¡).P(¡), (2.31) 
s P 


và (nêu © có vô hạn phần tử) " khả tích khi và chỉ khi chuỗi 


Sở F(œ¡).P(;) 


hội tụ tuyệt đối. 

Tương tự như tích phân Riemann thông thường, tích phân Lebesgue 
trên không gian xác suất có tính chất đơn điệu, tuyên tính, và giao 
hoán với phép lây giới hạn của một dãy hàm hội tụ đều: 

Định lý 2.7. Giả sử Ƒ G và T„ là các hàm đo được trên một không 


gian xác suắt (Q, P). 
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Ù Nếu F > 0 (hẳu khắp mọi nơi trên (3) thì độ FđdP >» 0. Tổng quát 
hơn, nếu P' > Œ thì [„ FdP > JQ GáP. 

i0 Nếu F„ hội tụ đều đến F trên 9, có nghĩa là lim„_;„e sup,„cọ |F»„()— 
F()| = 0, thì lìma ;ạo FyẻP = Ío FdP. 

ii Với hai số thực a, b bắt kỳ, ta có 


,: (aF +bG)dP = a ¡ FdP+b / G4P. (2.32) 
IỆ) Ộ Ọ 


Hai khẳng định đầu tiên của định lý trên suy ra trực tiếp từ định 
nghĩa của tích phân Lebesgue. Khẳng định thứ ba có thể kiểm tra trực 
tiếp dễ dàng trong trường hợp Ƒ' và Œ chỉ nhận một sô hữu hạn các 
giá trị. Trong trường hợp tổng quát, ta có thể xâp xỉ " và Œ bằng các 











hàm chỉ nhận một số hữu hạn các giá trị, sau đó lẫy giới hạn. 





Định lý sau, gọi là định lý hội tụ bị chặn Lebesgue (Lebesgue dom- 
inated convergence theorem), là một định lý hay được sử dụng trong 


việc nghiên cứu các tích phân Lebesgue: 


Định lý 2.8 (Lebesgue). Giả sử Ƒ„ : (O, P) — IR là một dãy hàm đo 
được trên không gian xác suắt (O, P) thỏa mãn hai điều kiện sau: 
Ù |F„| < G với mọi n, trong đó G là một hàm khả tích trên ©. 
iD F„ hội tụ hẳu khắp mọi nơi đến một hàm đo được F' trên ©, có 
nghĩa là tập các điểm œ € © sao cho lim„_ se F› (¿) = F(u) có độ đo 
bằng 1. 
Khi đó ta có 

| rap = .. : F„udP., (2.33) 


Sơ lược chứng minh. Vì |F„| < G nên ta cũng có |F| < G hầu 
khắp mọi nơi. Lẫy một số ö > 0 nhỏ tùy ý. Đặt A„ = {ø € ©|LF>(œ) — 


00 
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F(u)| > ô}. Ta có 


LỆ PáP— | F;áP| < | I#~ RldP 
ỌỘ Ộ Ộ 


<j đáP + | 2GáP <ð+3 | GẠP. 
SA» An Au 


Để chứng minh | [,„ F4P — J„, F„dP| tiễn tới 0 khi ø tiễn tới vô cùng, 
ta chỉ cần chứng minh ƒ A, GŒP tiễn tới 0 khi œ tiên tới vô cùng với 
mọi ð. Vì Ƒ;„ hội tụ hầu khắp mọi nơi đến Ƒ trên ©, nên tập hợp các 
điểm mà nằm trong vô sô các tập 4A„ có độ đo bằng 0. Do đó P(A„) 
tiễn tới 0 khi ø tiễn tới vô cùng (xem khẳng định thứ hai của Bài tập 
|.22). từ đó suy ra [4 GdP tiễn tới 0 khi ø tiễn tới vô cùng. 














Định lý|.6|vẻ sự bảo toàn giá trị kỳ vọng dưới ánh xạ bảo toàn 
xác suất có thể được phát biểu lại dưới dạng định lý về sự bảo toàn 
tích phân Lebesgue dưới đánh xạ bảo toàn xác suất: 

Định lý 2.9. Giả sử F': (O,P) —› R là một hàm khả tích trên không 
gian xác suắt (Q, P), và ó : (O¡, Pị) — (Q, P) là một ánh xạ bảo toàn 
xác suắt. Khi đó F' o ở là hàm khả tích trên (Q1, P.) và 


II (Fo¿)dP, = / FAP. (2.34) 
ØI ỌỘ 


Chứng minh của định lý trên suy ra trực tiếp từ định nghĩa tích 











phân Lebesgue. 














2.3.3. Kỳ vọng của phân bố xác suất trên IR 





Đôi khi, ta sẽ ký hiệu tích phân [Q "4P thành J .o F(2)dP, hoặc 
là [s F(u)dP(), để chỉ rõ hơn về việc lây tích phân theo biến nào. 
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Theo định nghĩa, kỳ vọng của một phân bô xác suất Px trên IR 


là xdDy. 
œeR 


Định lý 2.10. ¡) Kỳ vọng của một biến ngẫu nhiên X bằng kỳ vọng của 


phân bô xác suât Px của biên ngâu nhiên đó: 






































R(X) = J xdPx. (2.35) 
zeR 
i) Nếu Px là một phân bố liên tục với hàm mật độ px, thì ta có: 
E(X)= lI zpx(z)da. (2.36) 
iÙ Nếu g là một hàm số thực thì 
5(g(X))= |__sø)dPx= [_ s(e)øx(ø)dz. G37 
zeR —œo 


Khẳng định đầu tiên của định lý trên chẳng qua là trường hợp 
đặc biệt của tính chất bảo toàn kỳ vọng qua ánh xạ bảo toàn xác 
suất. Thật vậy, ta có thể viết X = 7d o X, trong đó 7d là hàm đồng 
nhất trên IR : 7d(z) = z. Do đó kỳ vọng của X bằng kỳ vọng của hàm 
Tả trên IR với phân bố xác suât Px, và ta có công thức (b.35). Khẳng 
định thứ hai là hệ quả của khẳng định thứ nhất trong trường hợp liên 
tục tuyệt đôi. Khẳng định thứ ba cũng suy ra từ tính chất bảo toàn 
kỳ vọng qua ánh xạ bảo toàn xác suất, tương tự như khẳng định thứ 











nhất. 





Ví dụ 2.15. Giá trị kỳ vọng của phân bố xác suất normal .V(,ø2) 
bằng ¿. 

Ví dụ 2.16. Giả sử giá 1kg vàng vào thời điểm 7' là 35000 (USD). 
Tại thời điểm 7, thì giá 1kg vàng cho thời điểm 7 + 1 chưa được 
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biết, và có thể coi là một biến ngẫu nhiên X. Giả sử rằng X có phân 
bố (gần như) normal với kỳ vọng 35000 và độ lệch chuẩn 400. Hỏi 
rằng, vào thời điểm 7, giá trị của quyền mua 1kg với giá 35000 tại 
thời điểm 7 + 1 là bao nhiêu? Quyển mua (call) vàng là một chứng 
khoán phái sinh, cho phép người sở hữu nó mua vàng với giá cô định 
trước, tại một thời điểm trong tương lai, nhưng không bắt buộc phải 
mua. Gọi giá trị của quyền mua này tại thời điểm 7 + 1 là Y. Khi đó 
Y = max(0, X — 35000), tức là nếu giá vàng lúc đó dưới 35000 thì 
giá trị của quyền mua bằng 0, còn nếu giá vàng trên 35000 thì giá 
trị của quyền mua bằng sự chênh lệch giữa giá vàng và giá ghi trong 
quyền mua. Giá trị của quyền mua này tại thời điểm 7' được coi bằng 


kỳ vọng của Y. Như vậy giá trị này bằng 


(z — 35000) 
z — 35000). exp (-“- d+ 





H 


1 œ5 
ñP }m= = / ( 
400V27 ./35000 











1 l ( + ) 400 ƒ® (—z)4 
=“=——== z©Xp | ———— | dt =—— exp(—z)dz 
400A/2z Jo P( —2 1002 Vồn (nể 
400 
= — >~ ]l60. 
V⁄2m 


Bài tập 2.17. Giả sử Y là một biến ngẫu nhiên liên tục với hàm mật 
độ sau: øy() = esin z khi z e]0, z|, và øy (+) = 0 tại các điểm khác. 
1) Hãy tính c. 

1i) Hãy tính E(Y) 


ii) Thử nghĩ một vấn để có thể xảy ra trong thực tế với phân bô xác 














suât này. 


Bài tập 2.18. Tính kỳ vọng của phân bố Pareto (2.19) với tham số 
ơ > 1. (Khi œ < 1 thì kỳ vọng bằng vô cùng). 
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2.3.4. Giá trị kỳ vọng hình học 


Trong các tài liệu về xác suất ít khi nhắc tới kỳ vọng hình học. 
Nhưng khái niệm này cũng rất quan trọng, bởi vậy chúng ta sẽ đề 
cập nó ở đây. Giá trị kỳ vọng ứng với trung bình cộng, còn giá trì kỳ 
vọng hình học ứng với trung bình nhân. Một ví dụ đơn giản sau đây 


cho thầy sự quan trọng của trung bình nhân trong thực tế. 


Ví dụ 2.17. Giả sử giá nhà dao động trong 4 năm như sau. Năm 
đầu tiên giảm 15%, năm thứ hai tăng 35%, năm thứ ba giảm 20%, 
năm thứ tư tăng 20%. Hỏi xem trong 4 năm đó giá nhà tăng lên 
(hay giảm đi) trùng bình mỗi năm bao nhiêu %? Nếu ta lẫy trung 
bình cộng thì được (-15% + 35% - 20% + 20%)⁄ 4 = 5% một 
năm. Nhưng con số đó có phản ánh chính xác sự đi lên của giá nhà 
trong 4 năm không? Nếu gọi giá lúc đầu là X, thì sau năm đầu giá là 
(1-15%)X, sau năm thứ hai giá là (1+35%)(1-15%)X, sau năm thứ 
ba giá là (1-20%)(1+35%)(1-15%)X, sau 4 năm giá là (1+20%)(1- 
20%)(1+35%)(1-15%)X = 1,1016 X. Tức là sau 4 năm giá nhà chỉ 
tăng lên có 10,16%, chứ không phải 20% (= 4 lần 5%) như là người 
ta tưởng! Để có cái nhìn chính xác về mức độ tăng trưởng trung bình 
hàng năm trong giai đoạn 4 năm, cần phải lẫy trung bình nhân của 
các con số 1+20%, 1-20%, 1+35%, 1-15% rồi trừ đi 1. Kết quả là 
2,449% một năm. 


Như chúng ta biết, nêu có một dãy các số đương zi,..., ø„, œ; > 0 
với mọi ¿, thì ngoài giá trị trung bình cộng (3) a;)/n=, chúng ta còn 
có thể nói đến trung bình nhân: (TI;aj*“>. Từ tiếng Anh cho trung 


bình nhân là geometric mean, nêu dịch từng chữ ra tiếng Việt thì là 
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“trung bình hình học”, còn trung bình cộng là “trung bình số học”. 
Trung bình nhân có thể được định nghĩa qua trung bình cộng và qua 
hàm logarithm In, và hàm ngược của hàm In, tức là hàm exp: 

{H q¡)1/t = exp(Š _(In qì)/7nh (2.38) 
Hàm In là hàm lõm trên nửa đường thẳng dương (đạo hàm bậc hai 


của nó bằng —1/z2 là một hàm âm), bởi vậy ta có: 


Lây exp của hai về của bất đẳng trên, ta được bất đẳng thức quen 


thuộc sau: Trung bình nhân luôn luôn nhỏ hơn hoặc bằng trung bình 


lƒn, 
II s) < i0 (2.39) 
h T1 


Dâu băng xảy ra khi và chỉ khi tât cả các sô a; băng nhau. 


cộng: 





Nếu thay vì một dãy các số dương, ta có một biên ngẫu nhiên X 
mà các giá trị đều dương, thì ta cũng có thể làm tương tự như trên, 
và kết quả gọi là giá trị kỳ vọng hình học của X: 

Định nghĩa 2.15. Nếu X là một biết ngẫu nhiên chỉ nhận các giá trị 
dương, thì giá trị kỳ vọng hình học của X, ký hiệu là G(X), được cho 
bở công thức sau: 














G(X) = exp(E(InX)) = cxp( Í In(X)đP). (2.40) 


Định lý 2.11. Giá trị kỳ vọng hình học luôn nhỏ hơn hoặc bằng giá trị 
kỳ vọng: 





G(X)<E(Z). (2.41) 
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Dấu bằng xảy ra khi và chỉ khi F' là hằng số hầu khắp mọi nơi trên 
không gian xác suắt, tức là tôn tại một số thực đương c sao cho P(X = 
=1, 


Định lý trên là trường hợp riêng của bắt đẳng thức Jensen phát 


. DQ 
biểu như sau: 


Định lý 2.12 (Bắt đẳng thức Jensen). Nếu ƒ là một hàm lỗi, và X 


là một biến ngẫu nhiên bắt kỳ, thì 


























E(ƒ(X)) > f(E()). (2.42) 


Ví dụ 2.18. Giả sử có một cơ hội đầu tư như sau. Khả năng thắng/thua 
là 50%/50%, sau 1 tháng biết kết quả. Nêu thắng thì lãi 100%, nêu 
thua thì lỗ 50% tiền bỏ ra. (Trên thị trường chứng khoán có những 
trường hợp tương tự như vậy, ví dụ như 1 hãng công nghệ sinh học 
khi đang đợi kết quả thí nghiệm lâm sàng của một loại thuốc chữa 
ung thư, nêu thành công thì giá trị cổ phiếu của hãng có thể tăng hơn 
gấp đôi, nêu thất bại thì giá trị cũng có thể mắt trên 50%). Hỏi đôi 
với người đầu tư thì có nên đầu tư vào những cơ hội như vậy không, 
và nêu nên thì nên đầu tư với nhiều nhất nhiêu % vốn đầu tư (để 
đạt kỳ vọng lợi nhuận cao nhất, giả sử là không có các cơ hội đầu tư 
khác)? 

Trước hết, ta có thể tính giá trị kỳ vọng của lợi nhuận của đầu tư 
theo cơ hội trên, với 1 đơn vị vôn bỏ ra. Gọi 7 là biến “lợi nhuận”, 
ta có 2 khả năng: hoặc  = 1 hoặc L = —1/2, mỗi khả năng có xác 
suất 50%. Như vậy kỳ vọng lợi nhuận trên 1 đơn vị vôn bỏ ra là: 
#(L) = 50%.1 + 50%.(—1/2) = 0, 25 Kỳ vọng lợi nhận ở đây là dương 
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và khá lớn (bằng 25% vôn bỏ ra), nên đây là cơ hội nên đầu tư, trừ 
khi có những cơ hội khác tốt hơn. (Lãi 25% trong một tháng có thể 
gọi là siêu lợi nhuận). 

Câu hỏi thứ hai là nhà đầu tư nên đầu tư vào đó nhiều nhất là 
bao nhiêu phần trăm vốn đầu tư? Nếu giả sử đầu tư toàn bộ 100% 
vôn. Khi đó có 2 khả năng, hoặc là tổng sô vốn tăng lên gấp đôi, 
hoặc là giảm đi còn 1 nửa, với xác suất của mỗi khả năng là 50%. 
Nhưng nêu một nhà đầu tư mà làm như vậy 2 lần liên tiếp, 1 lần 
thắng một lần thua, thì sau hai lần số vốn lại về như cũ không tăng 
trưởng được gì cả. Muốn đảm bảo cho vốn tăng trưởng “về lâu về 
dài”, cái cần tính đến không phải là giá trị kỳ vọng của vốn sau mỗi 
lần đầu tư, mà là giá trị kỳ vọng hình học. Nếu giả sử chỉ có 1 cơ 
hội đầu tư duy nhất như trên, thì giá trị kỳ vọng hình học của vốn 
có được sau khi đầu tư Y tiền vào đó trên tổng sô X tiền sẽ là: 
V{X -Y/2)(X +Y) Để tôi ưu hóa giá trị kỳ vọng hình học tức là 
tìm Y sao cho 4⁄/(X — Y/2)(X + Y) đặt cực đại, với X cho trước. Kết 
quả là Y = X/2, và khi đó giá trị kỳ vọng hình học của vốn sau khi 
đầu tư là ⁄(X - X/4)(X + X/2) = 1,061.X Như vậy, kỳ vọng lợi 
nhuận của một cơ hội đầu tư như trên, tính trên toàn bộ vốn của nhà 
đầu tư, chỉ có không quá 6,1% chứ không phải 25%. 











Định lý 2.13. Giá trị kỳ vọng hình học có những tính chắt sau: 

Tính đơn điệu: nếu F' > G thì G(F) > G(G) 

Tính thuần nhắt: Nếu c là hằng số thì G(eF) = eG(F) 

Tính lõm: (G(F) + G(G))/2 < G((F + G)/2). Dắu bằng xảy ra khi và 
chỉ khi F' và Œ tỷ lệ thuận với nhau, tức là tôn tại một hằng số dương 





c sao cho Œ = cF hầu khắp mọi nơi. 
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Ghi chú 2.6. Tính lõm của giá trị kỳ vọng hình học chính là cơ sở của 
nguyên tắc đa dạng hóa tài sản (diversification) trong đầu tư: Bằng 
cách đa dạng hóa tài sản (đầu tư một phần vào F và một phẩn vào G 
, thay vì chỉ đầu tư vào F hay chỉ đầu tư vào G) có thể làm tăng giá 
trị kỳ vọng hình học của danh mục đầu tư (ít ra là trong trường hợp 
F và G có cùng kỳ vọng hình học về tăng trưởng). 

Bài tập 2.19. Chứng minh bất đẳng thức (G()-+G(G))/23< G((F+ 
G)/2), cho trường hợp không gian xác suất là một không gian hữu 


hạn phần tử có phân bố xác suất đều. 


2.4. Phương sai, độ lệch chuẩn, và các moment 


2.4.1 Phương sai và độ lệch chuẩn 


Định nghĩa 2.16. Độ lệch chuẩn (standard deviation) của một biến 


ngẫu nhiên X là 








ơ(X) = VE((X - E(X))?). (2.43) 

















Phương sai (variance) của X, ký hiệu là uar(X), chính là bình phương 


(X))?). 




















của độ lệch chuẩn của X, tức là bằng E((X — 








Sử dụng tính tuyên tính của giá trị kỳ vọng, ta có thể biễn đổi công 
thức của phương sai như sau: E((X - E(X))2?) = E(X?- 2E(X).X + 
E(X)?) = E(X?)- 2E(X).E(X) +E(X)? = E(X2) - E(X)2. Như vậy, 


ta có công thức sau: 


























































































































oar(X) = ø(X)? = E(X?) - R(X)?. (2.44) 
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Độ lệch chuẩn có tính thuần nhất bậc một: ø(cX) = cơ(X), còn 
phương sai thì thuần nhất bậc hai: 0az(cX) = øơ(eX)? = c2uar(X). Ý 
nghĩa của độ lệch chuẩn là: nó là thước đo độ lệch của các giá trị của 
X so với giá trị trung bình của nó. Định nghĩa của phương sai cho 
thầy nó luôn luôn lớn hơn hoặc bằng 0, và bằng 0 khi và chỉ khi X 
là hằng số hầu khắp mọi nơi, tức là nó không bị lệch đi đâu cả so với 
giá trị trung bình của nó. 

Câu hỏi cho những người tò mò: Tại sao người ta lại hay dùng 
phương sai và độ lệch chuẩn làm thước đo cho độ lệch giữa các giá 
trị của một biến ngẫu nhiên X với giá trị kỳ vọng của nó, chứ không 
dùng một đại lượng kiểu như E(|X - E(X)|)? 




















Ví dụ 2.19. Nếu Ƒ nhận hai giá trị a và —a (a > 0), mỗi giá trị với 
xác suất 50%, thì giá trị kỳ vọng của # là 0, phương sai của Ƒ' là 
a2.50% + (—a)2.50% = a2, và độ lệch chuẩn chính là a. 

Ví dụ 2.20. Nêu F có phân bô normal .V(, ø2), thì giá trị kỳ vọng của 
F' chính là /, còn độ lệch chuẩn của 7# chính là ơ. (Bài tập: chứng 
minh điều đó bằng các biến đổi tích phân, xuất phát từ công thức 
lờ c exp(—#ˆ)dz =1) 

Ghi chú 2.7. Đôi với các biễn ngẫu nhiên với vô hạn các giá trị, thì 
các đại lượng đặc trưng của chúng như kỳ vọng, phương sai, và các 
đại lượng khác, không phải lúc nào cũng tổn tại hay hữu hạn. Ví 
dụ, phân bố xác suất rời rạc P(k) = Œ/k2 với mọi k e Ñ, với Œ = 
1/($1/n?) = 6/22, không có kỳ vọng và sai phương hữu hạn. Ta chỉ 
sử dụng các đại lượng đặc trưng khi chúng tổn tại và hữu hạn. 

Bài tập 2.20. Chứng minh rằng: 

¡) Độ lệch chuẩn của phân bố hình học với tham số p (P(k) = 
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/] — 
p(— p)#~1 với mọi k  Ñ) là ơ = &25 SE 
i0 Độ lệch chuẩn của phân bô Poisson với tham số À (P(k) = e~.AÈ/*I 


với mọi k e Z¿) là øơ = vÀ. 














Bài tập 2.21. Giả sử X là một biến ngẫu nhiên với E(X) = 2/3, 
và có phân bô xác suất liên tục với hàm mật độ øx có dạng sau: 
0x() = az2 + b nêu 0 < z < 1, và ox(z) = 0 ỏ những điểm còn lại. 
Hãy tính a, b, và uar(X ). 

Bài tập 2.22. Một phòng thí nghiệm phải kiểm tra một lượng ộ rất 
lớn các mẫu máu người (mỗi mẫu của 1 người) để tìm ra các mẫu có 
chứa một loại kháng thể X. Thay vì xét nghiệm từng mẫu một, người 
ta làm như sau: Chia các mẫu thành từng nhóm, mỗi nhóm có ¿: mẫu. 
Trộn các mẫu máu trong cùng một nhóm với nhau (lây một ít máu từ 
mỗi mẫu) để được 1 mẫu hỗn hợp, rồi xét nghiệp mẫu hỗn hợp đó. 
Nếu kết quả xét nghiệm là âm tính (mẫu hỗn hợp không có kháng 
thể X) thì coi như cả k mẫu trong nhóm đều không có kháng thể X, 
còn nêu mẫu hỗn hợp có kháng thể X, thì làm tiếp + xét nghiệm, mỗi 
xét nghiệm cho từng mẫu của nhóm. Giả sử xác suất để 1 mẫu máu 
có kháng thể X là một số p, và các mẫu máu độc lập với nhau. Gọi Š 
là tổng sô lần phải xét nghiệm. 

j) Xác suất để một mẫu máu hỗn hợp có chứa kháng thể X là bao 
nhiêu? 

i0 Tính kỳ vọng và phương sai của 9, khi tổng số mẫu máu phải kiểm 
tra là N = km. 

ii) Với những giá trị nào của p thì tổn tại một số thích hợp nào 
đó sao cho phương pháp xét nghiệm trên tiết kiệm được số lần xét 


nghiệm (kỳ vọng của nhỏ hơn W)? Tìm giá trị của k tối ưu, như là 
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hàm của p. 


2.4.2. Các moment của một biên ngầu nhiên 


Định nghĩa 2.17. Nếu X là một biến ngẫu nhiên, và k là một số tự 





nhiên, thì đại lượng IE(X*) được gọi là moment (hay mô men) bậc k 























của X, và đại lượng E((X — E(X))*) được gọi là moment trung tâm 
bậc k của X. 


k 








Ghi chú 2.8. Có nhiều từ thuật ngữ gốc nước ngoài, mà trong tiếng 
Việt không có từ “thuần Việt” tương ứng, chỉ dịch phiên âm, ví dụ 
như mô men (moment), véc tơ (vector), mô đun (module), v.v. Trong 
những trường hợp như vậy, ỏ đây chúng ta sẽ để nguyên từ theo tiếng 
Anh, thay vì dùng phiên âm tiếng Việt. 


Như phía trên chúng ta đã thấy, moment bậc 1 của X chính là giá 
trị kỳ vọng của nó, moment trung tâm bậc 1 của X thì luôn bằng 0, 
moment trung tâm bậc 2 của X chính là phương sai của nó, và nó có 


thể được biểu diễn qua các moment của X theo công thức: 




















E((X - E(X))?) = E(X2) - E(x)? (2.45) 
































Tương tự như vậy, các moment trung tâm bậc cao hơn của X cũng 
có thể khai triển dưới dạng đa thức của các moment của X. 
Nếu ký hiệu Py là phân bố xác suất trên IR của X, thì ta có thể 


viết moment bậc k của X theo công thức sau: 














R(X") = II x*dPx. (2.46) 
z„eR 
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Nếu như phân bố xác suất Px la một phân bố xác suất liên tục 


với hàm mật độ øx thì ta có thể viết: 














+co© 
(X”)= lI +*ox (œ) da. (2.47) 


—CO 


Các moment của một biến ngẫu nhiên cho ta các thông tin về 
dáng điệu của phân bố xác suất của biến ngẫu nhiên đó. Ví dụ, nêu 
moment trung tâm bậc 2 nhỏ, thì có nghĩa là các giá trị của X nói 
chung ít bị sai lệch so với giá trị kỳ vọng của nó, hay nói cách khác 
phần lớn xác suất của phân bổ xác suất của X tập trung trong một 
khoảng nhỏ xung quanh điểm giá trị kỳ vọng. Ngược lại, nễu moment 
trung tâm bậc 2 lớn, thì phân bố xác suất của X nói chung sẽ “đàn 
trải” hơn ra xa điểm giá trị kỳ vọng. 

Moment trung tâm bậc 3 của X được gọi là hệ số bắt đôi xứng 
(skewness), hay còn có thể gọi là độ xiên của phân bồ xác suất của 
X: Nêu X có phân bố xác suất đôi xứng quanh điểm giá trị kỳ vọng 
(có nghĩa là X và 2E(X) — X có cùng phân bô xác suất), thì moment 
trung tâm bậc 3 của nó bằng 0. Nếu như moment trung tâm bậc 3 
lớn hơn 0 thì phân bố xác suất của X được gọi là xiên về bên phải, 
còn nêu moment trung tâm bậc 3 nhỏ hơn 0 thì phân bố xác suất của 
X được gọi là xiên về bên trái. 

Ví dụ 2.21. Moment trung tâm bậc 3 của một phân bố normal bằng 
0. 

Ví dụ 2.22. Giả sử có một biến ngẫu nhiên X với phân bố xác suất rời 
rạc sau: P(X = —2) = 1/2,P(X = 1) = 1/4,P(X = 3) = 1/4. Khi 
đó giá trị kỳ vọng của X bằng 0, moment trung tâm bậc 3 của X bằng 
moment bậc 3 của X và bằng: (1/2).(—2)3 + (1/4).13 + (1/4).33 = 
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(+) Positively Skewed 
Distribution 





(-) Negatively Skewed 
Distribution 





Hình 2.8: Phân bô bắt đôi xứng 


3 > 0. Đồ thị phân bố xác suất của X (với 3 đoạn thẳng nhô lên ở 
3 điểm -2,1,3 trên trục hoành) bị “lệch về bên phải” so nêu lấy điểm 


giá trị kỳ vọng (= 0) làm trung điểm. 


Moment trung tâm bậc 4 của X liên quan đến cái gọi là kurtosid®)| 
của X. Theo định nghĩa, kurtosis (hay còn gọi là hệ số nhọn) của 


một biến ngẫu nhiên là đại lượng 
2= bắc SN 3, (2.48) 


trong đó ¿ là moment trung tâm bậc 4, còn ø là độ lệch chuẩn. Tỷ 
lệ „/ơ? được gọi là moment chuẩn hóa bậc 4. Lý do của việc chuẩn 
hóa này là: các moment chuẩn hóa của các phân bố normal đều là 


hằng số và không phụ thuộc vào độ lệch chuẩn. Moment chuẩn hóa 





t®kurtosis là một từ gốc tiếng Hy lạp, chỉ độ nhọn 
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(+) Leptokurtic General 
Forms of 
(0) Mesokurtic Kurtosis 


(Normal) 


(-) Platykurtic 


Hình 2.9: Kurtosis 


của bậc 4 của một phân bố normal chính bằng 3, bởi vậy kurtosis của 
một phân bố normal bằng 0. Khi một phân bố xác suất có kurtosis 
dương (phân bô như vậy gọi là phân bố leptokurtie hay nhọn vượt 
chuẩn) thì có nghĩa là nó “nhọn” hơn phân bố normal có cùng độ 
lệch chuẩn, còn khi kurtosis âm (phân bố như vậy gọi là phân bố 
platykurtic) thì có nghĩa là nó “bẹt” hơn phân bố normal có cùng độ 
lệch chuẩn. Nêu kurtosis bằng 0 thì phân bố được gọi là mesokurtic. 
(Xem hình|2.9). 

Ví dụ 2.23. Hình|2.10|là ví dụ minh họa về việc dịch chuyển 4 điểm 
a,b,c, d của một phân bồ xác suất đều rời rạc P(a) = P(b) = P(e) 
P(đ) = 1/4, từ vị trí ban đầu a = —3,b = —1,c = 1,d= 3, sao cho 
làm tăng 1 trong 4 moment bậc 1, bậc 2, bậc 3, bậc 4 trong khi giữ 














nguyên 3 moment còn lại. 


Tât nhiên, nêu hai biên ngâu nhiên có cùng phân bô xác suât 


trên IR, thì tắt cả các moment của chúng đều bằng nhau. Điều ngược 
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Hình 2.10: Thay đổi các moment bậc 1 đến bậc 4 











có đúng không, hay nói cách khác, dãy các moment (X*),k = 





1,2,3,... của một biến ngẫu nhiên xác định hoàn toàn phân bố xác 
suất của biên ngẫu nhiên đó không? Đây là một câu hỏi toán học 
thú vị. Có những ví dụ về các phân bố xác suất liên tục khác nhau 
nhưng có tất cả các moment như nhau. Tuy nhiên, trong trường hợp 
các không gian xác suất chỉ có hữu hạn phẩn tử (mà thực ra tất cả 
các vân để trong thực tế đều chỉ có hữu hạn các khả năng xảy ra, 
và các mô hình liên tục với vô hạn khả năng chỉ là các mô hình mô 


phỏng gắn đúng), thì ta có: 


Mệnh đề 2.14. Nếu X và Y là hai biến ngẫu nhiên chỉ nhận một số 


hữu hạn các giá trị, và có R(X*) = RB(Y*) với mọi k e Ñ, thì phân bỗ 


























xác suắt của chúng trên I bằng nhau. 
Bài tập 2.23. Chứng minh mệnh đề trên. 


Bài tập 2.24. Tính kỳ vọng và các moment của phân bô mũ với tham 
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SỐ À. 


2.4.3. Bắt đẳng thức Chebyschev và bắt đẳng thức Markov 


Những bất đẳng thức tương đối đơn giản sau đây của Chebyschev 
và Markov liên quan đến các moment sẽ có ích trong việc đánh giá 


phân bô xác suât của các biên ngâu nhiên. 


Định lý 2.15. (Bắt đẳng thức Chebyschev cho kỳ vọng) Với mọi biến 
ngẫu nhiên X chỉ nhận các giá trị không âm, và mọi số dương a > 0 


ta có 

















ŒX), 


PC >uJj< 
a 


(2.49) 


Chứng minh. Gọi X„ là biên ngẫu nhiên sau: X„ = ø khi X > a 
và X„ = 0 khi X < a. Khi đó X > X„, và X„ chỉ nhận hai giá trị 0 và 
a. Bởi vậy 


























#(X) > E(X,) =0.P(X„ = 0) +a.P(X¿ = ð) = a.P(X 3 a), 











từ đó suy ra điều phải chứng minh. 





Định lý 2.16. (Bắt đẳng thức Markov cho các moment tuyệt đối) Với 


mọi biễn ngẫu nhiên X, số đương a > 0, và số tự nhiên k, ta có 











B([X|È) 





(2.50) 





P(41|>a)< 
ũ 


Chứng minh. Suy ra từ bât đẳng thức Chebyschev cho biến ngẫu 


nhiên |X|* và hằng số a". 
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Hình 2.11: Pafnouti Lvovitch Chebyschev (1821-1894) 


Định lý 2.17. (Bắt đẳng thúc Chebyschev cho phương saÙ Nếu X là 
một biến ngẫu nhiên có phương sai uar(X) hữu hạn và a > 0 bắt kỳ, 


ta có 








P(X-E(#)|>a)< 








(2.51) 





Chứng minh. Suy ra từ bất đẳng thức Markov cho biên ngẫu 
nhiên X — E(X) và cho k = 2. 


























Ghi chú 2.9. Pafnouti Lvovitch Chebyschev (1821-1894) là một nhà 
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A. Á., Mapsoa (1886). 


Hình 2.12: Andrei Andreevitch Markov (1856-1922) 


toán học người Nga. Ngoài lý thuyết xác suất, ông ta còn nghiên 
cứu nhiều về số học và đại số. Các đa thức U„ bậc ø thỏa mãn 


1 l1 
Uz(cos(z)) = HH. MS h nh 
: .— SỈ 
xuât hiện nhiêu trong toán học và ứng dụng. Andrei Andreevitch 


Markov (1856-1922) cũng là một nhà toán học người Nga, và là học 


được gọi là đa thức Chebyschev, và chúng 


trò của Chebyschev. Các xích Markov (Markov chains) đặc biệt quan 
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trọng trong lý thuyêt xác suât về các quá trình ngâu nhiên (stochastic 
z 7 ` Ẩ .A l NXẻ ^ rP HA 
processes). Các quá trình ngầu nhiên năm ngoài khuôn khổ của cuôn 


sách này, nhưng sẽ được bàn đến trong một cuốn sách tiếp theo. 


2.5 Hàm đặc trưng, hàm sinh, và biên đổi Laplace 














Thay vì xét các moment E(X"*) của một biên ngẫu nhiên X, ta có 














thể xét các giá trị đặc trưng dạng E(exp(X)) trong đó ¿ là một tham 
sô nào đó. Khi ta biên đổi ¿ trong một miễn nào đó trên I hoặc C, sẽ 
ta được một hàm các giá trị đặc trưng của X. Sự liên quan giữa hàm 
này và các moment được thể hiện qua đẳng thức sau (xảy ra nễu như 


ta có các điều kiện về hội tụ): 





























Mx(w) = E(exp(wX)) = E(Ò )È/k!).X*) =3 ` E(X*).(w*/kÐ 
: : (2.52) 




















Hàm A⁄x() = E(exp(yX)) được gọi là hàm sinh moment của 
X⁄. 





2.5.1 Hàm đặc trưng 











Trong biểu thức A⁄x(ø) = E(exp(yX)), nếu ta lẫy „ = ¡s, (ở đây 
¿ = w—]) ,với s € R, thì ta có exp(uX) = exp(¿s) = cos(sX) + 


¿sin(sX) là một biên ngẫu nhiên bị chặn (có giá trị tuyệt đối bằng 














1), và ta có thể yên tâm về sự tổn tại của IE(exp(¿sX)). Từ đó có định 





nghĩa sau: 
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2.5. Hàm đặc trưng, hàm sinh, và biến đổi Laplace 


Định nghĩa 2.18. Hàm đặc trưng của một biến ngẫu nhiên thực X 
là hàm ®x : R — C được cho bởi công thức 














®x(s) = E(exp(sX)) = lì €°*4Px. (2.53) 
z„cR 


Ví dụ 2.24. Hàm đặc trưng của một sô phân bô xác suất quen thuộc: 
1) Hàm đặc trưng của một hằng số c (tức là biến ngẫu nhiên chỉ nhận 
mỗi giá trị e) là ®„(s) = e/°°. 

i) Hàm đặc trưng của phân bố nhị thức với các tham số ø,„ p là hàm 
(1—p+pe°)". 

iii) Hàm đặc trưng của phân bố xác suất đều trên một đoạn thẳng 


?bs —_ „—iqasS 
[a,b] là hàm “——“ 


ñ(b— a)s ` 
iv) Hàm đặc Si n phân bố xác suất mũ với tham số 1 (với mật 
độ ø(z) = e—* khi z > 0) là hàm =. 
v) Hàm đặc trưng của phân bô xác suất normal chuẩn tắc ,(0, 1) là 
hàm ®(s) = exp(—s2/2). 
(Bài tập: Hãy suy ra các công thức trên từ định nghĩa của hàm đặc 


trưng và của các phân bô xác suât). 


Định lý 2.18. Một số tính chắt của hàm đặc trưng: 

¡) ®x(0) =1 

¡ÙD |®x(s)| < 1 với mọi s € ]R 

iiÙ Nếu Y = aX +b với a, b là các hằng số, thì ®y(s) = eV—1!*® x (as). 


1y) ®x liên tục đều trên TR. 














v) Nếu (|X|Š) < oo với một số tự nhiên l: nào đó, thì hàm đặc trưng 


®x khả vi liên tục k lẳn trên IR, và 





R(X*) =_ —__ (0), (2.54) 
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) 


trong đó lầu là ký hiệu đạo hàm bậc k của ®x. 


Chứng minh. Ba tính chất đầu tiên tương đối hiển nhiên, suy ra 
ngay từ định nghĩa. Tính chất thứ tư là bài tập dành cho những bạn 
đọc quen với khái niệm liên tục đều. Để chứng minh tính chất cuôi 
cùng, chúng ta nhớ rằng phép lấy giá trị kỳ vọng là một phép lây giá 
trị trung bình, có thể hiểu như là một phép lây tổng (của một chuỗi), 
và do đó nó giao hoán với phép lẫy đạp hàm (khi một sô điều kiện 
hội tụ nào đó được thỏa mãn). Áp dụng nguyên tắc giao hoán đó vào 
định nghĩa của hàm đặc trưng, ta có đạo hàm bậc k của hàm đặc 
trưng là: 


dẺ _„ d# 
#V (s) = 2E#x(s) = E( + exp(isX)) 




















= EF((X)Êexp(sX)) = #E(X°exp(sX)). (2.55) 


























Đặt s = 0, ta được ®U)(0) = j#E(X*). 




















2.5.2 Tìm lại phân bố xác suất từ hàm đặc trưng 


Chúng ta có công thức giới hạn sau đây, cho phép tìm lại được 


phân bồ xác suất từ hàm đặc trưng của nó: 


Định lý 2.19. Gọi Px là phân bố xác suắt của một biến ngẫu nhiên X 


tùy ý, và ®x là hàm đặc trưng của nó. Khi đó với mọi a,b € ]R, a < Ù, 





tq có: 
`. Ẻ sã8ibiisei.2T.MÐ/”: (s)ds = Px( bị + fx@) + fx0) 
No 0d 8c. sẽ À 222-905) 2). 2 


(2.56) 
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Chúng ta sẽ chấp nhận định lý trên mà không chứng minh. Nếu 
bạn đọc đã biết qua về giải tích Eourier thì có thể tự chứng minh nó 
không quá khó khăn (nó tương tự như định lý Dirichlet cho chuỗi 
Fourier). Nếu không thì có thể xem chẳng hạn trong Chương 9 của 
quyển sách của Koralov và Sinai [5]. 

Trong trường hợp X có phân bồ xác suất liên tục với hàm mật độ 
øx, thì ta có thể viết 


-+co 
®x(s) = J €5 x(œ) da. (07) 


—oo 
Trong giải tích, phép tính trên gọi là phép biến đổi Fourier. Có nghĩa 
là, hàm đặc trưng chính là biến đổi Eourier của hàm mật độ. 

Chia cả hai về của công thức cho b — a, và cho b tiễn tới a, 
ta được công thức sau, gọi là phép biến đổi ngược Fourier, để tính 
hàm mật độ từ hàm đặc trưng: 


0F(z) : N e~?°*@p(s)ds. (2,58) 


„. _ 


Trong trường hợp X là biến ngẫu nhiên nguyên (chỉ nhận giá trị 
trong Z), thì hàm đặc trưng ®x của X chính là chuỗi Fourier với các 
hệ số là các xác suất Px(k) = P(X = k), k€ Z: 

®x(s) = ` Px(k) exp(iks), (2.59) 
k€Z 
và ta có thể tính ra Px(k) từ ®x theo công thức quen thuộc để tính 


các hệ sô của một chuôi Fourier: 


Px(K) : lắ e~'#°Ð v(s)ds (2.60) 


= z 
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Ghi chú 2.10. Joseph Fourier (1768-1830) là nhà toán học và vật lý 
Pháp. Trong khoảng thời gian 1798-1801 Fourier đi theo Napoléon, 
cùng với 35000 lính Pháp và một đoàn các nhà khoa học, sang chinh 
chiến ở Ai Cập (Egypt) và tìm hiểu nền văn minh Ai Cập. Khi ở Ai Cập, 
Fourier trỏ thành người điều hành Viện Hàn lâm Ai Cập do Napoléon 
lập ra, và sau đó điều hành luôn cả các công việc hành chính và ngoại 
giao ở Ai Cập, gần như là quan toàn quyên. Fourier tỏ ra rất có tài 
vẻ chính trị và ngoại giao, có thể đàm phán, hòa giải các bên đôi lập. 
Sau khi Pháp đầu hàng Anh ở Ai Cập năm 1801 và Fourier trở về 
Pháp, được cử làm tỉnh trưởng (préfet) vùng Isère. Trong thời gian 
ở Ai Cập, Fourier phát minh ra chuỗi Fourier, khi nhìn thây các lớp 
sóng cát (dunes) ở sa mạc. Chuỗi Fourier và biến đổi Fourier là một 
thứ công cụ vạn năng, không chỉ quan trọng trong xác suất, mà còn 


xuất hiện khắp nơi trong toán học và vật lý 

Trong trường hợp tổng quát, một phân bô xác suất cũng được xác 
định một cách duy nhất bởi hàm đặc trưng của nó: 
Định lý 2.20. Hai biến ngẫu nhiên có cùng phân bố xác suắt khi và chỉ 
khi chúng có cùng hàm đặc trưng. 

Chứng minh. Giả sử hai phân bố xác suất Px và Py có cùng hàm 
đặc trưng ®. Công thức (2.56) dẫn đến: 


Px(a) + Px(b) 
2 


Ty(a) + tr) 


Px (|a, b|) | 2 





= Pvda, bị) | 





với mọi a < b. Ta có thể chọn ø và b là những điểm liên tục của Zx 
và 7y, rồi cho ø tiên tới —oo, ta được: Zx(b) = Zy(b) tại mọi điểm b 


mà là điểm liên tục của cả Zx và Z+;. Giả sử + c IR là một điểm tùy ý. 
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Hình 2.13: Joseph Fourier (1768-1830) 


Nhắc lại rằng số điểm gián đoạn của một hàm phân phối xác suất trên 
R là không quá đếm được. Vì thế tổn tại một dãy các điểm z„ > z 
sao cho z„ tiễn tới z khi n tiễn tới vô cùng, và z„ là điểm liên tục của 
#x và 7y với mọi ø. Nhắc lại rằng, các hàm phân phối xác suất có 
tính chất liên tục bên phải. Do đó ta có: Zx(z) = limạ_;se.Fx(#„) = 
lim„_;s.#Y(#n) = Zy(+). Như vậy, hai hàm phân phối xác suất 7v 
và 7y trùng nhau, do đó hai phân bố xác suất Py và Ðy cũng trùng 
nhau. L] 





Bài tập 2.25. Ta sẽ gọi một biến ngẫu nhiên X là đối xứng nễu như 
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X và —X có cùng phân bố xác suất. Hãy xây dựng những ví dụ biến 
ngẫu nhiên đôi xứng, và chứng minh rằng một biến ngẫu nhiên là 
đối xứng khi và chỉ khi hàm đặc trưng ®x của nó là một hàm thực 
(tức là ®x(s) € R với mọi s € R). 


2.5.3. Hàm sinh xác suất và biên đổi Laplace 











Trong biểu thức JE(exp(yX)), nêu đặt y = Inz, thì ta được hàm 





sau, gọi là hàm sinh xác suât: 





Gx(z) =E(z) (2.61) 











Hàm sinh xác suât hay được dùng khi mà các giá trị của biên ngầu 
nhiên đều là sô nguyên không âm. Khi đó hàm sinh xác suât có dạng 


đa thức hoặc chuỗi Taylor có bán kính hội tụ lớn hơn hoặc bằng 1: 


x2) = PK)», (2.62) 
k 


l d*Gx(z) n. ) 
DI: NI lây VỚI mỌi k € 2... 


Từ quan điểm của giải tích phức, hàm đặc trưng ®x(s) và hàm 


và ta có P(X = k) = 





sinh Zx(z) gần như là một, có thể chuyển từ hàm này sang hàm kia 
bằng cách đổi biến. Bỏi vậy, tắt nhiên các moment của một biên ngẫu 
nhiên cũng có thể suy ra được từ hàm sinh xác suất của biến ngẫu 


nhiên đó. Ta có định lý sau: 


Định lý 2.21. Giả sử X là một biến ngẫu nhiên với hàm sinh xác suắt 
Œ. Khi đó: 
1) E(X) =Œ(1) 
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2) uar(X) = ø2(X) = G“(1) + Œ(1) - (Œ())2 
3) E(X(X - 1)...(X — k+1)) = G#)(1) với mọi k e Ñ. Ở đây G) 


là đạo hàm bậc k của G. 














Ví dụ 2.25. Hàm sinh xác suât của một biên ngẫu nhiên X với phân bố 
Poisson với tham sô À là hàm Œx(z) = exp((z — 1)A) Thật vậy, ta có: 
Gà Là) S= TS] LÀN) =6 A6 / Kì sổ A6 = 
c^Œ~1), Từ đó suy ra E(X) = Œ1⁄(1) = À,G%(1) = À2 và oar(X) = 
Œ+x() >+Œ%(1)— (Gý(1))2=À?+AÀ_—-À2=^À. 


























Trong trường hợp biến ngẫu nhiên X chỉ nhận các giá trị thực 
không âm, người ta hay dùng hàm Laplace Lx(¿) : R, — R, nhận 
được từ biểu thức IE(exp(X)) bằng cách đặt ¿ = —;: 























x{(‡) = E(exp(—tX)). (2.63) 





Ỏ đây ta coi biên nằm trong tập các sô thực không âm. Với giả sử 
rằng Ƒ chỉ nhận các giá trị không âm, ta luôn có 0 < (exp(—£F)) < 1, 
từ đó suy ra các giá trị của (2) là số dương và bị chặn trên bởi 1. 
Trong trường hợp Ƒ' có phân bố xác suất liên tục với hàm mật độ 
øz thỏa mãn điều kiện ø(z) = 0 với mọi z < 0 (có nghĩa là ” không 


nhận các giá trị âm), thì ta có 
Lp{(£) = l exp“*“ or()dø, (2.6%) 
0 


và hàm Ƒz(¿) được gọi là biên đổi Laplace của hàm mật độ øz(+). 
Tương tự như đối với hàm sinh và hàm đặc trưng, các đạo hàm 


của hàm ”z(¿) tại điểm ¿ = 0 cũng cho ta các moment của 7. 
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Hình 2.14: Pierre-Simon Laplace (1949-1827) 


Ghi chú 2.11. [fĐ|Pierre-Simon Laplace (1749-1827) là nhà toán học, 
thiên văn học và vật lý người Pháp, một trong những nhà khoa học có 
thế lực nhất ở châu Âu thời đại ông ta. Ông ta nghiên cứu rất nhiều 
thứ, từ xác suất (định lý giới hạn trung tâm, biến đổi Laplace) đến 
giải tích điều hòa, cơ học, âm thanh, truyền nhiệt, các thiên thể, v.v. 
Laplace chính là người đặt ra giả thuyết về lỗ đen (black hole) và 


về sự co lại do trọng lượng (gravitational collapse) trong vật lý thiên 





Xem wikipedia: http://fr.wikipedia.org/wiki/Pierre-Simon_Laplace. 
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văn. Laplace còn có tham vọng vẻ chính trị, là thành viên của thượng 
nghị viện. Có lúc làm Bộ trưởng Bộ nội vụ dưới thời Napoléon, nhưng 
sau 6 tuần thì bị cách chức vì không được việc. Laplace bị nhiều người 
cùng thời không tra vì tính bạc bẽo, ích kỷ, có khi còn vơ cả công trình 
của người khác thành của mình, và thay đổi quan điểm chính trị như 
chong chóng “theo chiều gió”. Nhưng về mặt khoa học, Laplace là 
một con người vĩ đại của thê kỷ 18-19. Biến đổi Laplace được gọi 
như vậy là do Laplace đưa vào để nghiên cứu xác suất, cùng với hàm 
sinh xác suất. Biến đổi Laplace còn xuất hiện ở nhiều nơi khác trong 
vật lý và toán học. Leonhard Euler (1707-1783) có lẽ là người đầu 
tiên nghĩ ra biến đổi này. 

Bài tập 2.26. Chứng minh rằng hàm sinh xác suất của một biễn ngẫu 
DZ 


l—z+pz 
Từ đó suy ra kỳ vọng và phương sai của phân bô hình học. 


nhiên với phân bô hình học với tham số p là hàm G(z) = 


Bài tập 2.27. Tính hàm sinh xác suất và hàm Laplace của phân bố 
nhị thức với các tham số 0, p. 
Bài tập 2.28. Chứng minh định lý cho trường hợp #' nhỉ nhận 


một sô hữu hạn các giá trị. 
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Vector ngâu nhiền 


3.1 Vector ngẫu nhiên 


3.1.1 Phân bô xác suất đồng thời 


Nếu ta có hai biến ngẫu nhiên X,Y : (Q,P) —> R, thì ta có thể 
xét chúng cùng một lúc với nhau như là một biến ngẫu nhiên với giá 
trị trong Rˆ: 

xX=#mx7"):0,P)+E. (3.1) 


Một biến ngẫu nhiên X với giá trị trong IR2 còn được gọi là một 
vector ngẫu nhiên®)| 2 chiều. Tương tự như vậy, nếu ta có w biên 
ngẫu nhiên với giá trị thực, ta có thể xét chúng cùng một lúc với 
nhau như là một biến ngẫu nhiên với giá trị trong JR”, và gọi nó là 


một vector ngâu nhiên ø chiêu. 





Œ®Tiêng Việt phiên âm chữ vector thành véc tơ, nhưng ở đây chúng ta sẽ để nguyên 


chữ vector cho tiện. 


128 


3.1. Vector ngẫu nhiên 


Định nghĩa 3.1. Một vector ngẫu nhiên n chiều X = (X\..... X„) : 
(QO,P) — R" xác định trên IR" một phân bỗ xác suất cảm sinh qua 
push-forward từ phân bố xác suắt trên ©. Phân bỗ xác suắt trên IR" 
này được gọi là phân bỗ xác suất của X, hay còn được gọi là phân 
bố xác suất đồng thời của các biến ngẫu nhiên Xì,..., X„. Hàm 
Zx :R" — |0, 1] cho bởi công thức 


JX ( fieposfn) ST (11 0rluisa 20 y5 0n) (3.2) 


được gọi là hàm phân phôi xác suất của vector ngẫu nhiên X, hay còn 
gọi là hàm phân phối xác suất đồng thời của các biến ngẫu nhiên 
nho Ẩn: 


Gh¡i chú 3.1. Nói một cách chặt chẽ toán học, tương tự như trong 
trường hợp 1 chiều, trong định nghĩa vector ngẫu nhiên có điều kiện 
đo được, tức là tỔn tại xác suất P(X € U) với mọi tập con mở U 
của R". Khi nói đến một phân bố xác suất trên IR” ta sẽ luôn coi rằng 
sigma-đại sô của nó chính là sigma-đại số Borel sinh bởi các tập con 
mỏ của lR", 

Ghi chú 3.2. Nêu hai biễn ngẫu nhiên X; : (ÓI,¡)) — R và XÄ! : 
(Oas. P¡) —› IR có hai mô hình không gian xác suất khác nhau, thì 
trước khi có thể xét cặp (X¡.Xz) như là một vector ngẫu nhiên, 
ta phải thay đổi mô hình không gian xác suất, để biến Xị và X› 
thành các biến ngẫu nhiên trên cùng một không gian xác suất. Nói 
cách khác, ta phải xây dựng được một không gian xác suất (Q, P), 
cùng với các toàn ánh bảo toàn xác suất ở : (O,P) —> (Óy, P¡) và 
ós : (O,P) —> (Q;, P›), sao cho thích hợp với vân để đang được 


nghiên cứu. Sau đó, thay vì xét X¡ và X; riêng lẻ, ta có thể xét 
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Xi =X oói và X¿ = X¿ o ó› cùng nhau trên ©. Chú ý rằng, về mặt 
bản chất, X¡ và Ä¡ chẳng qua là một (và tất nhiên có cùng phân bố 
xác suất trên I§), nhưng được đặt trên các mô hình không gian xác 


suât khác nhau. 


Tương tự như trong trường hợp 1 chiều, một phân bố xác suất 
nhiều chiều 7x (của một vector ngẫu nhiên X = (Xị...., X„)) được 
xác định duy nhất bởi hàm phân phối xác suất của nó. Ví dụ, khi  = 
2, ta có thể tính xác suất của một hình chữ nhật nửa mở ]a, b] x]e, dỈ 


trong ï§? khi biết hàm phân phối xác suất Zx qua công thức sau: 
Px(la, bj xịc, đl) = x0, đ) -= JP XU) ©) + T#x(a, €) ”= #x(a, d), (3.3) 


còn xác suất của các miễn hình chữ nhật đóng thì có thể tính qua giới 


hạn 


Px({a, b| x [c, đ]) = lim Px(Ia", b|x]¿, đị). (3.4) 


g'—>a—,c'—>c— 
Bài tập 3.1. Viết công thức tính xác suất Pg(ja, b]x]e, đỊx]e, ƒ]) của 


một hình khối chữ nhật nửa mở thông qua hàm phân phôi xác suất 


7p của một vector ngẫu nhiên 3 chiều F = (H, Fa, Fs). 


Bài tập 3.2. Hai người hẹn gặp nhau vào một buổi trưa tại một điểm 
X. Mỗi người đi đến điểm X trong khoảng thời gian từ 12h đến 13h 
một cách ngẫu nhiên với phân bô đều, và nêu khi đến không thấy 
người kia đâu thì đợi thêm 15 phút mà vẫn không thây thì bỏ đi. 
Tính xác suất để hai người gặp được nhau ở điểm X theo hẹn. 
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3.1.2 Các phân bô xác suất biên 


Khi ta có một vector ngẫu nhiên X = (X:,..., X„) với phân hàm 
phân phối xác suất đồng thời 7x, thì ta có thể tìm lại được các hàm 
phân phối của các phân bô xác suất Zx, của các biến X; qua công 
thức giới hạn sau: 


Tx,(z) = lim -X 010g 6n] 20)081155ssydBn, (3.5) 
zk->oo Vkz¡ 


Do đó, các hàm phân phôi xác suất Z x, còn được gọi là các hàm phân 
phôi xác suất biên (hay còn gọi là phân phối xác suất biên duyên) 
của hàm phân phôi xác suất đồng thời Zx, và các phân bố xác suất 
Px, được gọi là các phân bố xác suất biên (marginal distributions) 
của phân bố xác suất đồng thời 7x. 
Mệnh đề 3.1. Các phép chiếu tự nhiên ó; : (R", Px) — (R, Px,), 
ói(đ....,#„) = +„ là các ánh xạ bảo toàn xác suắt. 

Chứng minh của mệnh đề trên suy ra trực tiếp từ các định nghĩa. 
Ví dụ 3.1. Nếu X là một biến ngẫu nhiên rời rạc với các giá trị z; và 
Y là một biên ngẫu nhiên rời rạc với các giá trị ;, thì việc phép chiêu 


thứ nhất bảo toàn xác suất có nghĩa là 








TK EEH/)E E(UJÀ =@uÝV =U)=) PK =w¿Ÿ si 
l (3.6) 


Chú ý rằng các phân bố xác suất biên được xác định duy nhất bởi 
phân bố xác suất đồng thời, nhưng điều ngược lại nói chung không 
đúng: Nếu ta biết phân bố xác suất của hai biến ngẫu nhiên X,Y thì 


không có nghĩa là ta biết phân bố xác suắt đồng thời của chúng. 
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Ví dụ 3.2. Giả sử ta biết rằng Px là phân bô Bernoulli với Px(0) 


1—p,Px(1) = p, và y cũng là phân bô Bernoulli với fy(0) 
1~g, y(1) = ạ. Khi đó ta biết rằng ?x,y là một phân bố xác suất trên 
R? tập trung tại 4 điểm 4 = (0,0), = (0,1),C = (1,0),Ð = (1,1), 
và thoả mãn các điều kiện: Pxy(C) + Pxy(DÐ) = p, Pxy(B) + 
Pxy(D) = ạ. Nhưng Px,y(D) có thể là một số bất kỳ nằm giữa 0 và 
mứn(p, q)- 


3.1.3. Hàm mật độ đồng thời 


Định nghĩa 3.2. Một phân bó xác suắt n chiều Px được gọi là liên tục 
tuyệt đôi nếu nó được sinh bởi một hàm mật độ øx : IR" —› IR. khả 
tích trên IR". Điều đó có nghĩa là với mọi miền U C IR" ta có: 


Px(U) = KD... (3.7) 


Hàm px còn được gọi là hàm mật độ đồng thời của các biến ngẫu 
nhiên X\,...., X„. 


Tất nhiên, nếu một hàm ø không âm là một hàm mật độ đồng 


thời trên IR”, thì nó phải có tính chất 
œ œ 
ll ` ĐExšsss)En,)DE1 24220 lTb (3.8) 
—oo —oo 


bởi vì xác suất của toàn bộ không gian là bằng 1. Ngược lại, mọi hàm 
không âm có tính chất trên là hàm mật độ của một phân bồ xác suất 


nào đó trên IR", 


Nếu như các phân bố xác suất Px,(=i1,‹.:,09) và, fx (X = 
(Xị...., X„)) là các phân bố xác suất liên tục với các hàm mật độ 
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tương ứng øx, và øx, thì ta có thể viết 
œ œ 
Ø%: (8) = lI mộ, 0(%; a,...› 1n)... đụn, (3.9) 
—œo —œo 


và tương tự như vậy cho các hàm øx;(z),...,ox„(). Các hàm øx, 
được gọi là các hàm mật độ biên (của hàm mật độ øx, hay là của 
các biến X,). 

Ví dụ 3.3. Giả sử X = (X,Y) có hàm mật độ đồng thời øx(z,) = 
1/z+ khi 0 <  < z < 1 và øx(z,) = 0 tại các điểm khác. Khi đó hàm 


mật độ biên øx của X là: 
x(#) = [_ øx(e,wdy= [ (1/e)4y=1 


khi 0 < z < 1, và øx(z) = 0 tại các điểm khác. Điều đó có nghĩa là 
X có phân bồ xác suất đều trên đoạn ]0, 1]. Hàm mật độ biên của Y 
là: 


1 1 
øx(0) = [T px(z.w)dz = Ƒ (Mø)dz = =laự 
Ụ ø 
khi 0 <  < 1, và øy() = 0 tại các điểm khác. 


Nếu ta có hai biến ngẫu nhiên X,Y và Ƒ : R2 -› IR là một hàm 
số hai biến, thì phân bô xác suất của biên ngẫu nhiên F(X, Y) có thể 
suy ra được từ phân bô xác suất đồng thời của X và Y theo công 
thức: 


#Zr(x,v)(a) = P(X,Y) < a) = Pxy({(ø,) € R?|F(,) < a}). 
(3.10) 
Trong trường hợp liên tục, ta cũng có thể tính được hàm mật độ của 


F{(X,Y) từ hàm mật độ đồng thời của X và Y. Ví dụ, trong trường 
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hợp F(X,Y) = X +Y, ta có công thức sau: 


0x+y(2) = lI 0x,v(#, z — #)d+. (3.11) 


—CO© 


(Công thức tương tự cho các biến ngẫu nhiên rời rạc là: Px.,y(z) = 
Š`.Pxy(,z — #), với Px,y(,z — #) = P(X = z,Y = z — z)). Tất 


nhiên, các khẳng định trên có thể mở rộng lên trường hợp ø chiêu. 








Bài tập 3.3. Giả sử X là một biến ngẫu nhiên bất kỳ. Chứng minh 


rằng không tồn tại hàm mật độ cho vector ngẫu nhiên (X, X3). 


3.1.4. Hàm đặc trưng của vector ngẫu nhiên 


Tương tự như trong trường hợp biên ngẫu nhiên 1 chiều, ta có 
thể định nghĩa các đại lượng đặc trưng của các vector ngẫu nhiên: 
nếu #' : J8“ —› C là một hàm ø biến bất kỳ, và X = (Xị,..., X„) là 


một vector ngẫu nhiên an, thì 
J F(x)dPx (3.12) 
xeR* 


là đại lượng đặc trưng của X định nghĩa bởi hàm #Ƒ. Nhắc lại rằng, 
trong trường hợp ø = 1 và F(z) = +, thì công thức trên cho ta 
moment bậc š. Trong trường hợp ø tùy ý và F(x) = zƒ'...z}" là 
một đơn thức (x = (z¡..., z„)), thì ta được một moment hỗn hợp 














#(X‡+... X°») của vector ngẫu nhiên ø chiều. Nếu # không chỉ phụ 
thuộc vào x mà còn phụ thuộc vào các tham sô s nào đó, thì công 
thức trên cho ta một hàm theo biên s, mà các giá trị của nó là các giá 


trị đặc trưng của X. 
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Định nghĩa 3.3. Hàm đặc trưng của vector ngẫu nhiên n chiễu X = 
(Xị,..., X„) là hàm n biến ®x(s), s = (sị,.... s„), cho bởi công thức 


sau: 


Sx(81y.c¿j 8u) = lI exp(V—1 bi s¿ø¡)dPx. (3.13) 
xeR" j1 


Tương tự như trong trường hợp một chiều, hàm đặy trưng trong 


trường hợp nhiều chiều có các tính chất sau: 


Định lý 3.2. ) Giả sử X là một vector ngẫu nhiên n chiêu bắt kỳ. 
Khi đó hàm đặ trưng ®x của nó là một hàm liên tục đễu trên IR", 
|Ðx(0)| = 1, và |®x(s)| < 1 với mọi s € IR”". 

iÙ (Công thức nghịch đảo) Giả sử X là một vector ngẫu nhiên n chiễu, 
và a,b € lR, so cho a < b và hình hộp mở n chiêu Đapb = {x € 
R"|a < x < b} có xác suất của biên theo phân bố của X bằng 0: 
?x(9Bap) = 0. Khi đó: 


P(X € Ban) = 
s V—lsw&y — ¿V—lsgby 
— lim... lim J lI ( s )#xeoa 





(2na)" Tì >co Tì—>œo ti xv —lsự 
—T<s<T ”- 


(3.14) 
(trong đó ds = dsị.... ds„ là ký hiệu độ đo Lebesgue trên IR"). 
ii Nếu hai vector ngẫu nhiên n chiều có cùng hàm đặc trưng, thì chúng 


cũng có cùng phân bô xác suất trên IR". 














iy) Giả sử m € Ñ và E(|X;['") < œ với mọi ¡ = 1,...,m. Khi đó hàm 


đặc trưng khả vi liên tục m lẳn, và 





R kị nu —— 1 Øl*Ì®x(0) 
l(X?!... XĂ") = (vV=DMisht...aỆt (3.15) 
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với mọi kị,..., kạ € Z¡ sao cho |k| = kị +... + k„ụ < m. 

v) (Biến đổi Fourier ngược). Trong trường hợp phân bô xác suắt của X 
là liên tục tuyệt đối với hàm mật độ px, thì ®x là biến đổi Fourier của 
0x, và øx là biến đổi Fourier ngược của ®x: 


1 
(ðn)" 





0x(%) = ; exp(~v—TỒ ` s:zx)®x(s)ds. (3.16) 
ni k 
Chứng minh của định lý trên tương tự như trường hợp 1 chiều, 
tuy có phức tạp hơn. 


3.2. Các biên ngâu nhiên độc lập 
3.2.1 Sự độc lập của một bộ biến ngẫu nhiên 


Khái niệm độc lập của các biên ngẫu nhiên là mở rộng khái niệm 
độc lập của các sự kiện. VềỀ mặt triết lý, khi mà hai biên ngẫu nhiên 
không liên quan đến nhau, thì chúng phải độc lập với nhau. Ví dụ, 
“số giờ đạy học trong tuần của giáo viên” và “chiều cao của cây cau” 
có lẽ không liên quan gì đến nhau, có thể coi là độc lập. Nêu giả sử 
ta tung quân xúc sắc 3 lần, thì ta có một bộ 3 biến ngẫu nhiên, mỗi 
biến là kết quả của một lần tung xúc sắc. Bộ 3 biến ngẫu nhiên đó 
cũng có thể coi là độc lập, khi không có gì chứng tỏ kết quả của các 


lần tung có thể ảnh hưởng tới nhau. 


Định nghĩa 3.4. Một bộ n biến ngẫu nhiên Xì,.... X„ được gọi là 
độc lập nếu như không gian xác suắt (IR", Px) với phân bỗ xác suắt 


đồng thời Px của Xì...., X„ là tích trực tiếp của các không gian 
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xác suắt (IR, Px,).....(JR, Px„), hay nói cách khác, với mọi tập con 


Ai,...,Aa¿CR (nằm trong sigma-đại số Borel của R) ta có 


Px(An Xi. X Aa) = PXi € AI,...,Xn,€ Aa) 
=]|[PGi < A9 =]|[Px(4). (3.17 

¿=1 ¿=1 
Trong trường hợp các biến ngẫu nhiên X:,..., X„ đều có phân 


bố xác suất rời rạc, điều kiện độc lập có thể được viết dưới dạng sau: 
m 
Px() = | [Px,(›) (3.18) 
¿=1 


với mọi x = (#,...,#„) € R", 

Hàm phân phối xác suất của tích trực tiếp (8, Px,)x...x(R, Px„) 
chính là hàm .Z(4;;::#»w)= [lễ-¡ P(A:S m =] ¡7x 0y). Phần 
bố xác suất trên IR“ được xác định duy nhất bởi hàm phân bô xác suất 


của nó, bởi vậy ta có: 


Định lý 3.3. Các khẳng định sau đây là tương đương: 
Ù Bộ n biến ngẫu nhiên X\,.... X„ là độc lập. 
i) Hàm phân phối xác suắt đông thời Ƒx của X\...., X„ là tích của 


các hàm phân phôi xác suất biên 7x,: 


Tx(01cj#n) = ] [73 0g); (3.19) 
2=l 
hay nói cách khác, 
PŒI <zt..., F„ S sa) = lI?œ <ứn), (3.20) 
=1 
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với mọi (,..., z„) € JR". 
ii) Hàm đặc trưng ®x(sị,..., s„) của X = (X\,..., X„) là tích của 


các hàm đặc trưng ®x,(s;): 
T 
®x(si,...,s„) = |['#x,(s;): (3.21) 
¿=1 


iw) (Trường hợp liên tục tuyệt đối) Tích của các hàm mật độ biên 


0x,(%) của các biến X; bằng hàm mật độ đông thời: 
?m 
Øx 00s 1) 7< llsx.(: (3.22) 
¿=1 


Ví dụ 3.4. Nêu A và B là hai sự kiện, và ja và ¿p là các hàm chỉ báo 
tương ứng của chúng (x = 1 nêu A xảy ra và „4 = 0 nêu 4 không 
xảy ra, và tương tự như vậy với ;), thì A và là hai sự kiện độc lập 
khi và chỉ khi j4 và ¿s là hai biên ngẫu nhiên độc lập. 

Ghỉ chú 3.3. Tương tự như đôi với các sự kiện, có những bộ biến ngẫu 
nhiên không độc lập, mà trong đó các biến ngẫu nhiên độc lập với 
nhau theo từng đôi một. Để lấy ví dụ, ta chỉ cần lây một bộ các sự 
kiện không độc lập nhưng độc lập từng đôi một, rồi lây các hàm chỉ 
báo của chúng. 

Bài tập 3.4. Xây dựng một ví dụ với 3 biên ngẫu nhiên X, Y, Z sao 
cho X độc lập với Y và Z, nhưng không độc lập với Y + Z. 

Bài tập 3.5. Giả sử X, Y, Z là ba biên ngẫu nhiên độc lập với phân bố 
đều trên đoạn thẳng ]0, 1[. Hãy tính xác suất để có thể lập được một 
hình tam giác với ba cạnh là X, Y, Z. 

Bài tập 3.6. Phân bố gamma với các tham sô œ,A > 0 là phân 


bố xác suất liên tục tuyệt đối trên R với hàm mật độ sau: ø(z) = 
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EU LNGE Ở đây T(a) = J?P z%~!e~*dz gọi là hàm gamma. Biết 
rằng T(*) = (k — 1)! với mọi k e Ñ. Chứng minh (bằng qui nạp) 
rằng, nêu X¡,..., X; là k biên ngẫu nhiên độc lập với phân bố mũ 
với tham số A, thì tổng của chúng X; +... + X¿ có phân bố gamma 
với các tham số k, À. 
Bài tập 3.7. Giả sử X và Y có phân bô xác suất đồng thời liên tục, 
với hàm mật độ xác suật đồng thời sau đây: 

œe *—# khiz, >0 

0(Z, 1) = "`. 
0 tại các điểm khác 


Hỏi rằng X và Y có độc lập với nhau không? 


3.2.2. Một ví dụ không hiển nhiên về sự độc lập 


Giả sử ta tung quân xúc sắc tổng cộng ấ@ lần, và mỗi lần tung thì 
xác suất để hiện lên mặt 1 châm là p = 1/6. Gọi X là số lần tung hiện 
lên 1 chấm, Y là số lần tung hiện ra những mặt khác. Khi đó X và Y 
là hai biến ngẫu nhiên, với X + Y = N. Nếu số lần tung N là một số 
cô định, thì X và Y không độc lập với nhau, vì P(X =a,Y =b) =0 
nếu a + Ù z£ÑN. 

Bây giờ ta giả sử rằng bản thân tổng số lần tung là một số ngẫu 

nhiên tuân theo luật Poisson với tham số À: 
An 
mỊ” 
Khi đó P(X = a,Y =Ù) # 0 với mọi a,b € Z... Xác suất có điều kiện 
P(X = z|N = n) tuân theo phân bồ nhị phân: 


P(N =n) =e ^—,ne€74+ 


P( =z|N =n) = Cạp”(1— p)”” 
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Từ đó suy ra: 





+  =t£Y =“i)=P( =:.ÀN =i30)PÍN <šự+0) 


bu % À —À (Ap)” (Aq = p))” —À^À 
= Cựu q “TT NET TU Bàn Ji 6e ^U, 
P(X =#) =3 3yez, P(X =ø,Y =ụ) = SSP.Ơi, 


œ1 ` 


P =9) =%»„e„, P(X =+,Y = ụ) = TP ,0, 








với Ơi = e-®?,Œạ = e I-P) và P(X = z).P(u =) = PỤÝ = 
z,Y = ø). Điều đó có nghĩ là, trong trường hợp này (khi mà tổng 
N = X +Y tuân theo phân bố Poisson), hai biến X và Y độc lập với 


nhaul 


3.2.3. Một số hệ quả của sự độc lập 


Định lý 3.4. Giả sử Xị,.... X„ là một bộ n biến ngẫu nhiên độc 
lập, và øi.....g„ là các hàm số thực. Khi đó các biến ngẫu nhiên 


øgI(X)),..., gn(X„) cũng độc lập với nhau. 


Chứng minh. Với các tập con 4i,...,4„ C IR bất kỳ ta có: 
P(m(X) € Ai,...,dn(X) € An) = P(MXI € 0ø `(A),...,Ấ € 
Øn1(Aa)) = TI,P(X: € gø;ˆ(4)) = TI,P(ø() 6 4;), và do đó 


các biên ngẫu nhiên ø¡ (Xì)...., ø„(X„) độc lập với nhau. 














Tương tự như vậy, ta có mệnh đẻ sau (chứng minh của nó là bài 


tập dành cho bạn đọc): 


Mệnh đề 3.5. Nếu Xì, Xs, Xs là một bộ 3 biến ngẫu nhiên độc lập, và 
ó : IR2 —> IR là một hàm hai biến, thì các biến ngẫu nhiên ó(X\. X›) và 


X; độc lập với nhau. 
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Nhặc lại rắng, nêu X là một biên ngâu nhiên, thì hàm sinh xác 














suât của nó là hàm Œx(z) = E(z*), và hàm đặc trưng của nó là hàm 














®x(s) = E(exp(V—1sX)). 


Định lý 3.6. Nếu Xì,.... X„ là một bộ n biến ngẫu nhiên độc lập, thì: 














Ù 
°(J[X›) 
1) 
oar(S ` X;¡) 
1i) 
ŒS,x,( 
L) 
®= xí 














= II R(X,), (3.23) 
= À_„uar(Xo), (3.24) 
TH Gx,(z (3.25) 
TH ®x,(s (3.26) 


Chứng minh. ¡) và ii). Chúng ta sẽ chứng minh cho trường hợp 


n = 9, và hai biên ngâu nhiên Xì, X¿ chỉ nhận một sô hữu hạn các 


giá trị {01x ;5e0pj và 1n 














b„„} tương ứng. Khi đó ta có: 
1) B(X1X2) = 2ÿ a;bjP(XI — dq¡, Xa = b;) 


= À1; abjP(X: = ¡)P(Xa = Ùj) 
= Q1 áiPXi = ¡)) (2; by P(X› = bj)) = R(X¡+)E(A)). 

























































































= E(X?) - E(X¡)? + E(X?) - 

































































11) 0uar(X1 + X2) = E((Xi + Xa)? )— E(Xi + 2)? " 
= E(X?) + 2KE(X¡X¿) + E(XỶ) -— (E 
= E(X?)+2E(X¡X:) +E(X$)-— 

















(E(X¡) + E(X¿))” = 
E(XI)?— 2R(XI)E(X¿)T— E(X›)? = 


















































R(Xa)2 = 0ar(XI) + uar(3). 
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Chương 3. Vector ngẫu nhiên 


Trường hợp các biến ngẫu nhiên nhận vô hạn các giá trị có thể 
suy ra từ trường hợp với hữu hạn các giá trị bằng cách lấy giới hạn. 
Trường hợp ø tùy ý suy ra từ trường hợp » = 2 bằng qui nạp. 

HH) Tạ. có:Sx x/(2) = M225) ='E([J2^)':= TÍEG“9 = 


II; Gx,(z), do các biến zÄ: độc lập với nhau. 


















































iv) Chứng minh hoàn toàn tương tự. 
Ví dụ 3.5. Giả sử X và Y là hai biến ngẫu nhiên độc lập có phân bố 
Poisson với các tham số là A và + tương ứng. Khi đó X + Y cũng có 
phân bố Poisson với tham sô là À + +. Để thấy điều đó, ta có thể tính 
P(X +Y = F) qua công thức 








P(X+Y =k)=`P(X =h,Y =k—h) =Àˆ P(X = h)P(W = k—h), 
h h 
hoặc là ta có thể lý luận như sau: Hàm sinh của X là Gx(z) = 
exp(A(z -— 1)), của Y là Œy(z) = exp(+(z - 1)). Vì X và Y độc lập 
với nhau nên hàm sinh của X + Y là ŒGx¿y(z) = Gx(z)Gy(z) = 
exp(A(z -— 1))exp(+(z - 1)) = exp((ÀA + +)(z — 1)) là hàm sinh của 
phân bố Poisson với tham số À + +. Bởi vậy X + Y có phân bố này. 
Bài tập 3.8. Giả sử X và Y là hai biến ngẫu nhiên độc lập tuân theo 
các phân bố normal .V(¡, ø?) và .V(ua, g3) tưởng ứng. Hãy tính hàm 
đặc trưng của X + Y, và từ đó suy ra rằng X + Y tuân theo phân bố 
normal (1 + "a, 2 + đ3). 
Bài tập 3.9. Tung một quân xúc sắc nhiều lần, cho đến khi tổng của 
tắt các các sô hiện lên trong các lần tung đạt ít nhất 1000. Gọi + 
là xác suất để số lần phải tung lớn hơn 350. Dùng bất đẳng thức 


Chebyschev để tìm một đánh giá chặn trên của +. 
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3.3. Luật số lớn 


Bài tập 3.10. Tung một con xúc sắc 5 lần. Dùng hàm sinh xác suất, 
hãy tính xác suất để tổng các số hiện lên trong 5 lần tung là 15. 

Bài tập 3.11. Giả sử Xì, X:, X:.... là một dãy các biến ngẫu nhiên 
độc lập có cùng một phân bố xác suất, với kỳ vọng  < 0 và phương 
sai øơ? < oo. Gọi $%„ = ÄX¡ +... + X„ là tổng của ø biến ngẫu nhiên 
đầu tiên. Dùng bất đẳng thức Chebyschev để chứng minh rằng, với 
mọi c € R, ta có lim„_;¿ P(%„ > c) =0. 


3.3. Luật số lớn 


3.3.1. Dạng yêu của luật số lớn cho phân bố bất kỳ 


Giả sử Xị, Xa, Xz.... là một dãy vô hạn các biến ngẫu nhiên độc 
lập có cùng một phân bố xác suất với kỳ vọng / và phương sai z2 hữu 
hạn. Đặt 5%„ = X +... + X„. Ta có mỏ rộng sau đây của định Iý[1.4] 


Định lý 3.7 (Luật số lớn). Với mọi c > 0 ta có 


lim P ( — h < ‹) =1; (3.27) 


Định lý Bernoulii[1.4llà trường hợp riêng của định lý trên, khi mà 
X; chỉ nhận hai giá trị O và 1. 

Chứng minh. Do các biên ngẫu nhiên X; độc lập với nhau nên 
0ar(S„) = }3”_¡ uar(X;) = nø3, và E(S„) = }?—¡ R(Xị) = nụ. Áp 
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dụng bắt đẳng thức Chebyschey, ta có: 




















Sn ¬ 0uar(Sn) ơ? m—>cO 
ch —g| >e] = P(l8a—E(8a)| > né) < = 
r{ ` h > ‹) P(|S,~R(Su)| > n©) < “Ga” “ng 1 0 
(3.28) 














từ đó suy ra điều phải chứng minh. 


Ghi chú 3.4. Chứng minh của định Iý|B.7|tất nhiên có thể dùng được 
cho định Iý[1.4| và nó đơn giản hơn cách chứng minh định Iý|1.4|viết 
phía trên. Tuy nhiên, cách chứng minh định lý[1.4|phía trên cho một 
đánh giá hội tụ tốt hơn: dãy sô dạng a”, với 0 < a < 1, hộ tụ về 0 
nhanh hơn là đấy số 1/n. 


Ghi chú 3.5. Kể cả trong trường hợp với kỳ vọng / hữu hạn nhưng 
phương sai vô hạn, định lý|3.7|vẫn đúng, nhưng chứng minh phức 
tạp hơn, và khi đó nó được gọi là định lý Khinchin. (Có thể xem, 
chẳng hạn, [5] và [6Ï)). 


Bài tập 3.12. Một sòng bạc hợp pháp được rao bán, và bạn là nhà 
đầu tư muôn mua nó. Nhưng trước khi mua nó bạn muốn biết lợi 
nhuận hàng năm của nó bao nhiêu. Sòng bạc này chỉ chuyên về trò 
quay vòng đỏ đen. Mỗi bàn quay có 37 ô: 18 ô đỏ, 18 ô đen, và 1 ô 
nhà cái. Nếu khi quay vòng kim chỉ vào ô cùng mâu với ô đặt cọc thì 
người chơi thắng, đặt 1 ăn 1, còn nếu kim chỉ vào ô khác màu hoặc 
vào ô nhà cái thì người chơi mắt tiền đặt cọc. Nói cách khác, cứ mỗi 
lần đặc cọc, thì xác suất để nhà cái thắng số tiền đặt cọc đó là 19/37, 
và để nhà cái thua số tiền đặt cọc đó là 18/37. Biết rằng trong năm 
sòng bạc mỏ cửa cả 365 ngày, mỗi ngày trung bình các người chơi 
đặt cọc tổng cộng 50 nghìn euro. Giải thích tại sao luật số lớn lại có 


thể dùng để tính ước lượng số tiền thu về được trong 1 năm của sòng 
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3.3. Luật số lớn 


bạc từ trò chơi quay vòng đỏ đen (trước khi trừ chỉ phí hoạt động), 


và hãy tính con sô này. 


3.3.2. Dạng mạnh của luật số lớn 


Định lý 3.8 (Luật số lớn). Giả sử Xì, Xa, Xs,... là một dãy vô hạn 
các biến độc lập có cùng một phân bỗ xác suắt với kỳ vọng bằng 4u và 
E(X?) hữu hạn. Khi đó ta có: 


Pp ( lim 2x=LX: = ,) =], (3.29) 


Tì—>OO T 














T 
Z7. Z Z À “ “ > )— Ä; „Á “+ . 
hay nói cách khác, hầu như chặc chăn răng, >=LX: tiền tới ti khi n 
+ 


tiên tới vô cùng. 


Ghỉ chú 3.6. Tât nhiên, dạng mạnh của luật số lớn mạnh hơn dạng 
yêu, và bỏi vậy cũng đòi hỏi điều kiện mạnh hơn: nêu một phân bố 
xác suất nào đó thỏa mãn luật số lớn mạnh, thì nó cũng nghiễm nhiên 


thỏa mãn luật số lón yếu, tuy điều ngược lại không đúng. 


Trước khi chứng minh định Iý|a.8| ta cần hiểu chính xác ý nghĩa 
toán học của định lý trên, và cần có mô hình xác suất tự nhiên cho 


m 
tho 2 để ;—1 Äi 
sự kiện lim 2=LX: 
?,—>CO© + ⁄ 
xảy ra sự kiện này như là một tập con trong một không gian xác suât 


= úu, tức là mô tả tập hợp tắt cả các tình huống 


nào đó. Không gian xác suất ở đây sẽ tích trực tiếp của một dãy vô 


hạn các không gian xác suât. 
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Chương 3. Vector ngẫu nhiên 
3.3.3. Tích của một dãy vô hạn các không gian xác suất 


Giả sử ta có một dãy vô hạn các không gian xác suất (Q;, P;), ¿ = 


1,2,3,.... Khi đó tích trực tiếp của chúng là không gian 


Q= [[ Đi = {(i,#2,#3,....)|z¿ € Ö; Ví € Ñ}. (3.30) 


=1 


Mỗi phần tử của © là một dãy x = (z,);en các phần tử z;: z; € ©; 
với mọi ¿ c Ñ. Phân bố xác suất tích trên © được cho bởi công thức 
sau: nếu 4; C ©; sao cho tổn tại P;(A,) với mọi ¡ € Ñ, thì theo định 
nghĩa, 


T 


P( [42 := ] [542 := Jm || 5Œ): (3.31) 
$—1 =1 =1 


Ở đây []ƒ°¡ Ai = {(i,#2,#3,...)|#¿ 6 A;¿ Võ 6 Ñ} là một tập con của 
© có dạng tích trực tiếp. Chú ý rằng tích vô hạn 


_ n 
lÏ 5142) = jm |] (4) 
¿=1 ¿=1 
tồn tại và không âm, bởi vì dãy sô ([]7_¡ P;(4;))„en là một dãy đơn 
điệu không tăng không âm. Tích này có thể bằng 0 kể cả khi P;(4,) > 
0 với mọi ¡. Thế nhưng nêu ?,(4;) > 0 với mọi ¡, và Đ;(A;) = 1 với 
hầu hết mọi ¡ trừ một số hữu hạn các giá trị của ¿, thì tích này có thể 
coi như là một tích hữu hạn, với giá trị dương. 
Đối với các tập con của © không có dạng tích trực tiếp, thì xác 
suất của chúng có thể tính được từ xác suất của các tập con có dạng 


tích trực tiêp, thông qua các tiên đề của xác suât. Ví dụ, xác suât của 
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3.3. Luật số lớn 


hợp của hai tập con có dạng tích trực tiếp là: 


d1 ĐH 50= ?d142 )+P( dl5)- P({[ 2n) 
"142 )+P( dI? j~= ?dlun8) 
=]| SIỀI )+]]Ja )—] [204 Bì). 


Bằng cách đó, ta có thể định nghĩa xác suất của mọi tập con của © 
mà nằm trong sigma-đại số sinh bỏi các tập con có dạng tích trực tiếp 
(qua các phép: phần bù, giao, hợp, và hợp một dãy vô hạn). Độ đo 
xác suất P trên Q định nghĩa như trên, cùng với sigma-đại số này, 
được gọi là tích trực tiếp của các độ đo xác suất P,. 

Nếu ta có một dãy vô hạn các biên ngẫu nhiên độc lập X;., thì ta 
có thể coi nó như một vector vô hạn chiều (X,);zn, và vector vô hạn 
chiều này sinh ra trên không gian vô hạn chiều IRỄ một phân bô xác 
suất P, chính là tích trực tiếp của các phân bồ xác suất P; của X; trên 
R: 


co 


(RỲ,P) = ]](®. P;) (3.32) 
¿=1 
Trong trường hợp các biến X; có cùng phân bồ xác suất, tức là P; = 
Pị với mọi ¡ e Ñ, ta có thể việt 


(RỲ, P) = (R, PP) (38) 


Tích vô hạn (R, 7„)Ÿ này có thể dùng làm mô hình không gian xác 





suât trong định lý|3.8| Khi đó sự kiện lim — » X; = Lu ứng với tập 
¡=1 


m—>oo †\, 4 
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hợp con {(;);jen € RỲ|lim„_,„ + 3¡ X; = ,} trong RỂ, Định lý 
|3.8|tương đương với khẳng định 


P(A) =0, (3.34) 


trong đó A = RỲ \ {(z;);en € IRỀ| lim, › + 33? ¡ X¿ = n}. 

Có một chỉ tiết kỹ thuật là: tập 4 trên không nhất thiết nằm 
trong sigma-đại sô của (IR, P,)Ÿ xây dựng như trên. Khi đó ta phải 
hiểu P(4) = 0 như thế nào? Vẫn để này dẫn đến định nghĩa sau: 


Định nghĩa 3.5. Giả sử PB là một tập đo được của một không gian xác 
suắt (Q, P), với P(B) = 0, và A là tập con của B. Khi đó A sẽ được gọi 


là tập con có thể bỏ qua, và ta cũng viết 
P(A) =0. 


Nói cách khác, nêu một tập có xác suât băng 0, thì ta coi mọi tập 

z ~ Z Z HÀ > r .. z ^ Z ^ 
con của nó cũng có xác suât băng 0, kể cả khi các tập con đó không 
» . -._Ấ Ầ z r ^ . .-._ Á rP 
năm trong sigma-đại sô ban đâu. Ta có thể mở rộng sigma-đại sô để 


chứa tật cả các tập con như vậy. 


3.3.4. Chứng minh định lý|3.8| 


Chúng ta sẽ chia chứng minh của định Iý|3.8|thành một sô bước, 


mỗi bước chúng ta sẽ viết dưới dạng một bổ đề. 


Bổ để 3.9 (Tiêu chuẩn xác suất bằng 0). Nếu tôn tại một dãy các tập 
con AÁ C AÁ„ C (O,P) sao cho A„ đo được và lim„_;¿¿ P(Aa) = 0, thì 
P(A) =0. 
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3.3. Luật số lớn 


Chứng minh của bổ đề trên là bài tập dành cho bạn đọc. 


Giả sử X\, Xa, X;,... là một dãy vô hạn các biên độc lập có cùng 














một phân bố xác suất với kỳ vọng bằng / và E(X‡) hữu hạn, như 
trong định Iý|3.8| Đặt Y; = X; — ¡ (để chuyển định lý về trường hợp 
với kỳ vọng bằng 0). Dễ thấy rằng, điều kiện E(X?) hữu hạn tương 























đương với điều kiện moment trung tâm bậc 4 ¿ = #(YZ) hữu hạn, 














và suy ra điều kiện phương sai ø2 = (Y2) hữu hạn. 





Bổ để 3.10. Với mọi n € Ñ ta có 














E(Ò _ Yj)!) = nuạ + 3n(n — 1)ø` < CnŸ, (3.35) 
¿=1 


trong đó Ở = 3ơ1 + uạ là một hằng số (không phụ thuộc vào 0). 


Chứng minh. Ta có 


($2Y)*=S2Y +65) 2V? +45) vấy, 
¡=1 ¿=1 


¡<j px 
HẾ Ð. lội Híh S., Tại Thưp 
i⁄j#k i⁄jZkzl 
Do các biến ngẫu nhiên Yị,...,Y„ độc lập với nhau và có kỳ vọng 


























bằng 0 nên E(Y3Y;) = E(Y3)E(Y;) = 0 với mọi ¡ # 7, và tương tự 
như vậy, E(Y/2Y;Y¿) = E(Y;Y;Y,Yi) = 0 với mọi ¡ # j # k # Ï. Bỏi 


vậy 
































+ ? 


S(Q_ Y¡)!) = À E02) +6 ,E(Yj)E(Y) = nụa + 3n(n — 1)2Ẻ. 
¡=I ¡=I i<j 
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Bổ để 3.11. Với mọi k; c Ñ tôn tại một hằng số Œụ = k*Œ sao cho 
P23 YI> 1) < (3.36) 
Lm] k m 
với mọi n € Ñ. 


Bổ để suy ra trực tiếp từ bổ đẻ|3.10|và bắt đẳng thức Markov. 


Bổ đề 3.12. Với mọi l; c Ñ tôn tại một số mạ, c Ñ sao cho, đặt 


= | j 3 YI> (3.37) 


T,>mng, 


ta có 


P(E,) < (3.38) 


2k" 
k|3.12|suy ra trực tiếp từ bổ đẻ|3.11|và sự hội tụ của chuỗi 


Nl: lại rằng, A là sự kiện “1 => ;-¡ Y¡ không tiễn tới 0 khi n tiến 
tới vô cùng”, và định Iý|3.8| tương đương với khẳng định P(4) = 0. 
Đặt 


A¿ = LJ Bà. (3.39) 
h>k 


Bổ để 3.13. Tu có 


AC A¿ và P(Ay) < (3.40) 


2E 


với mọi k € Ñ. 
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3.4. Sự tương quan giữa các biến ngẫu nhiên 


Khẳng định A C 4 suy ra trực tiếp từ định nghĩa về giới hạn, 
còn bắt đẳng thức P(4¿) < 1/2* là hệ quả trực tiếp của bổ đề 
Từ bổ để cuỗi cùng ta suy ra (4) = 0, là điều cần phải chứng minh. 














3.4. Sự tương quan giữa các biến ngẫu nhiên 


3.4.1 Hiệp phương sai 


Định nghĩa 3.6. Nếu X,Y là hai biến ngẫu nhiên, thì hiệp phương 


sai (covariance) của chúng là đại lượng 











cou(X,Y) = E((X - E(X))(Y - E(Y))). (3.41) 





























Trong trường hợp đặc biệt, khi X = Y, từ định nghĩa trên ta có 
khẳng định sau: hiệp phương sai của một biến ngẫu nhiên với chính 


nó chính là phương sai của nó: 








cou(X, X) = ER((X - E(X))?) = uar(X) = ơ(X)Ÿ. (3.42) 




















Ý nghĩa của hiệp phương sai cou(X,Y) như sau: nó đo độ dao 
động “cùng hướng” hay “ngược hướng” của X và Y. Ở đây ta hình 
dung là X và Y dao động quanh trung điểm (giá trị kỳ vọng) tương 
ứng của chúng. Nếu như X và Y luôn dao động cùng hướng, tức là 











X dao động lên trên trung điểm (X — E(X) > 0) mỗi khi Y cũng dao 





động lên trên trung điểm, và X dao động xuông dưới mỗi khi Y cũng 
dao động xuông đưới, thì (X — E(X))(Y — E(Y)) luôn có có giá trị 
lớn hơn hoặc bằng 0, và cou(X, Y) là số dương. Ngược lại, nếu X và 


























151 


Chương 3. Vector ngẫu nhiên 


Y dao động ngược hướng, thì coo(X, Y) là số âm. Trong trường hợp 
chung, coo(X, Y) là số âm hay số dương tùy thuộc vào việc X và Y 
dao động ngược hướng nhiều hơn hay là dao động cùng hướng nhiều 
hơn. 


Định lý 3.14. ¡) Một công thức khác để tính hiệp phương sai là: 














cou(X,Y) = E(XY) - E(X)E(Y). (3.43) 




















i) Nếu hai biến X và Y độc lập với nhau, thì cou(X,Y) = 0. 


Chứng minh. ¡) Ta có: 






































R((X—E(X))(Y-E(Y))) =E(XY-E(X)Y—XE(Y)+E(X)E(ÿ)) 
= E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)KE(Y) = E(XY)-E(X)E(Y). 





















































































































































1) Khi X và Y độc lập với nhau thì E(XY) = E(X)E(Y), do đó 
cou(X,Y) = E(XY) -E(X)E(Y) =0 












































Định lý 3.15. Hiệp phương sai có các tính chắt sau: 

Ù Đối xứng: cou(X,Y) = cou(X,Y) 

ï) Tuyến tính: cou(œ.X+aa.Xa, Y ) = a1.cou(X1, X)~+aa.cou(Xa,Y) 
iiÙ Bắt biến theo xê dịch: cou(X + a,Y) = cou(X,Y) 


Các tính chất trên suy ra trực tiếp từ định nghĩa. Tính chất tuyến 
tính cũng đúng với biến Y, nên ta nói rằng coo(X,Y) có tính chất 
song tuyên tính. 

3.4.2. Hệ sô tương quan 


Do tính chất song tuyên tính của hiệp phương sai coo(X,Y), ta 
có thể chia cou(X,Y) cho z(X)øơ(Y) để được một đại lượng có bậc 
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thuần nhất bằng 0, tức là không thay đổi khi ta nhân X,Y với các 
hằng số. Đại lượng đó được gọi là hệ số tương quan (correlation) của 
XvàY: 


Định nghĩa 3.7. Nếu hai biến ngẫu nhiên X,Y có độ lệch chuẩn 
ơ(X).ø(Y) khác 0, thì hệ số tương quan của chúng là đại lượng 


sau: 
cou(F) G) 


ơ(F)ø(G) 
Định lý 3.16. Nếu X,Y là hai biến ngẫu nhiên có độ lệch chuẩn khác 


0, thì ta luôn có 


r(F,G) = (3.44) 


+19(1,ts<ủh (3.45) 
Hơn nữa, r(X,Y) = 1 khi và chỉ khi X,Y có quan hệ tuyến tính với 
nhau với hệ số dương, có nghĩa là tôn tại một số thực dương a > 0 
và một số thực b sao cho X = aY + b hầu khắp mọi nơi. Ngược lại, 
r(X,Y) = —1 khi và chỉ khi X,Y có quan hệ tuyến tính với nhau với 
hệ số âm, có nghĩa là tôn tại một số thực dương a < 0 và một số thực b 


sao cho X = aY + b hầu khắp mọi nơi. 
Định lý trên là hệ quả trực tiếp của bất đẳng thức Cauchy-Schwarz 
sau: 


Định lý 3.17. (Bát đẳng thức Cauchy-Schwarz). Nếu U, V là hai biến 
ngẫu nhiên thực bắt kỳ thì ta luôn có 














E(UV)2 < E(U”)E(V}). (3.46) 























Dấu bằng xảy ra khi và chỉ khi U và V tỷ lệ thuận với nhau, túc là hoặc 
là V = 0 hầu khắp mọi nơi hoặc là ta có thể viết U = cV hâu khắp 


mọi nơi, với c là một hăng sô. 
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Trường hợp mà không gian xác suất là hữu hạn với phân bố xác 
suất đều, bắt đẳng thức Cauchy-Schwarz có dạng cổ điển quen thuộc 


sau: Với các sô thực a¿, b;, ¿ = 1,...,n, bất kỳ, ta có: 
(2 áb)” < (a7). 2b). (3.47) 
Để chứng minh bắt đẳng thức cổ điển trên, chỉ cần kiểm tra rằng 


ề, abj)” — (3 ` s7)(Ð_ bj)” = — À '(abj — a;bi)” < 0. (3.48) 


¡<3 


Dâu bằng xảy ra khi và chỉ khi a;b; = a;b; với mọi ¡, j, có nghĩa là dãy 
số (a;) tỷ lệ thuận với dãy số (b;). Trường hợp tổng quát của bất đẳng 
thức Cauchy-Schwarz trên không gian xác suất chẳng qua là giới hạn 
của trường hợp cổ điển quen thuộc trên. 

Chứng minh bất đẳng thức Cauchy-Schwarz trong trường hợp 
tổng quát: Ta có thể viết U = U + aV với ø = R(UV)/E(V). Khi đó 
ta có I(UV)2 = a2E(V2)2, E(Uì.V) = 0, E(U2) = E(UỆ + 2a.U+.V + 
a?.V3) = E(U?) + a?.E(V”) > a?.E(V?), và bởi vậy E(U2).E(V2) > 
a2.E(V2).E(V?) = E(UV)?. 



















































































































































































Trong bất đẳng thức Cauchy-Schwarz, nêu ta đặt U = FƑ—IE(F) và 
V =G— E(G) thì ta được bắt đẳng thức co»(F, G)2 < ø(F)2.ø(G)), 
từ đó suy ra —1 < r(F,@G) < 1. 


























Ghỉ chú 3.7. Đại lượng E(UV) được gọi là tích vô hướng của U 
và V. Với tích vô hướng này, không gian các biến ngẫu nhiên (trên 
một không gian xác suất cỗ định nào đó) trở thành không gian tiền 
Hilbert (pre-Hilbert space). 
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Ví dụ 3.6. (Giá nhà và diện tích nhà). Dãy số liệu sau về giá rao bán 
các căn hộ ỏ Quận 13 thành phô Paris được lây từ một trang web bắt 
động sản vào ngày 12/10/2009. Để làm ví dụ ở đây, chúng ta sẽ chỉ 
lây 40 quảng cáo xuất hiện mới nhất, trong số hàng nghìn quảng cáo: 

(102, 890), (45, 210), (40, 286), (53, 375), (69, 311), (64, 645), 
(84,498), (38, 262), (33, 210), (38, 223), (33, 242), (15, 129), (73, 
456), (51, 233), (16, 109), (40, 297), (85, 495), (84, 485), (100, 
780), (83, 490), (87, 460), (51, 275), (40, 297), (85, 495), (85, 
505), (43, 215), (46, 265), (75, 477), (61, 293), (76, 399), (73, 
399), (73, 490), (85, 495), (37, 292), (34, 290), (30, 232), (20, 
150), (57, 383), (20, 132), (61, 290) 

Trong dãy số liệu trên, mỗi cặp sô gồm 2 số: sô thứ nhất là diện 
tích của căn hộ, tính theo đơn vị m2, số thứ hai là giá rao bán, tính 
theo đơn vị nghìn euro. Ví dụ, (102, 890) có nghĩa là một căn hộ 
rộng 102m2 được rao bán với giá 890 nghìn Euro. Chúng ta sẽ coi 
không gian xác suất ở đây gồm 40 phần tử, với phân bồ xác suất đều, 
mỗi phần tử ứng với một căn hộ được rao bán trong 40 quảng cáo 
phía trên. (Không gian xác suất này được gọi là không gian xác suất 
thực nghiệm). 

Từ số liệu trên, ta có thể tính ra hệ số tương quan giữa biến X = 
“diện tích của căn hộ ở Quận 13” và biến Y = “giá rao bán căn hộ 
ở Quận 13” (tại thời điểm 12/10/2009) bằng 0,888. Con số này có 
thể tính được bằng tay, nhưng cũng có thể dùng phần mềm máy tính 
để tính, sẽ nhanh hơn. Đặc biệt là khi bảng số liệu rất lớn (không 
gian xác suất có rất nhiều phần tử), thì cách tính tốt nhất là nhập số 


liệu vào máy rồi tính bằng máy. Để tính hệ số tương quan trong ví dụ 
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price versus area, Paris 13ème 
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Hình 3.1: Diện tích căn hộ và giá rao bán tại Quận 13, Paris, tháng 
10⁄2009 


này, các tác giả dùng phần mềm gretl (viết tắt của: Gnu Regression, 
Econometrics and Time-series Library), là một phần mềm nhỏ tự do 
mã mỏ, có giao diện trực giác dễ sử dụng. 

Hình |3.1] do chương trình gretl vẽ ra, là đồ thị phân tán (scat- 
terplot) của hai biến “diện tích căn hộ” và “giá căn hộ” trong ví dụ 


trên. 


Ví dụ 3.7. Trọng lượng trẻ em lúc sinh ra, và ước lượng bằng soi siêu 


âm. Một nghiên cứu thông kê trong y học của Schild, Fimmers và 
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Hansmanr|2] trên 65 trẻ em cho thấy phương pháp ước lượng trọng 
lượng trẻ em trước lúc sinh ra bằng soi siêu âm 3 chiều cho kết quả 
rất tôt: hệ sô tương quan giữa ước lượng và trọng lượng thực tế lúc 
sinh ra là 0,976. Xem đồ thị phân tán trên hình |3.2] 
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Hình 3.2: Trọng lượng ước lượng bằng soi siêu âm và trọng lượng 
thực tế 





(2R.I. Schild, R. Fimmers, L. Hansmann, Fetal weight estimation by three- 
dimensional ultrasound, Ultrasound in Obstetrics and Gynecology, 16 (2000), 445— 
452. 
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Bài tập 3.13. Xây dựng một ví dụ với hai biên ngẫu nhiên không độc 
lập với nhau, nhưng có hiệp phương sai bằng 0. 

Bài tập 3.14. (Giá xe ô tô và tuổi của xe). Dãy số liệu sau về tuổi của 
xe Mercedes C220 cũ (số năm mà xe đã chạy) và giá rao bán xe (tính 
theo euro) được lấy từ trang web vivastreet (chuyên về quảng cáo 
bán đồ cũ) ngày 25/10/2009: (13, 3000), (4, 17500), (7, 9900), (3, 
17800), (6,11500), (6, 14000), (4,18000), (6, 15000), (10, 5490), 
(8, 12000), (1, 32500), (10, 6500), (9, 5900), (3, 24200), (11, 6000), 
(2, 21000), (9,10700), (0, 30000), (8, 9800), (13, 4200). Hãy tính 
hệ sô tương quan giữa hai biến “tuổi của xe” và “giá rao bán xe” cho 
các xe Mercedes C220 cũ, dựa theo dãy số liệu trên. 

Bài tập 3.15. Tìm trọng lượng và chiều cao của một nhóm người 
(ví dụ một lớp học), rồi tính hệ số tương quan giữa hai biến “trọng 


lượng” và “chiều cao” của những người trong nhóm đó. 


3.4.3. Quan hệ tuyến tính với sai số bình phương nhỏ nhất 


Nhắc lại rằng, nêu hệ số tương quan r = r(X,Y) giữa hai biến 





ngẫu nhiên X và Y bằng +1, thì Y = aX + b với a, b là các hằng số. 
Trong trường hợp chung (đặc biệt là khi z2 gần bằng 1), ta cũng có 
thể viết Y dưới dạng một đa thức bậc 1 của X cộng với một sai số c 
nào đó: 


Y =uX +b+c. (3.49) 


HA Z > HA ` ¬= ` Lễ z r 
Ta muôn chọn các hăng sô ø và b sao cho sai sô c là nhỏ nhật có thể. 


Ta sẽ dùng chuẩn L; để đo độ to nhỏ của c. Có nghĩa là, ta muốn 











chọn các hằng số a và b sao cho E(|e|2) nhỏ nhất. 
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Định lý 3.18. Giả sử X và Y là hai biến ngẫu nhiên không phải hằng 
số. Đặt c = Y — aX — b trong đó a,b là hai hằng số thực. Khi đó 
`... `. +0.7105 000 đ) 
E(|e|2) đạt giá trị nhỏ nhật (theo a,b) khi mà a = ——————— và b = 

ÐU 


ar(X) 
E(Y) — aE(X). 












































Chứng minh. I#((Y — aX — b)Ÿ) là một đa thức bậc 2 theo a và b, 
tiễn tới +oo khi |a| + |b| tiên tới vô cùng. Bởi vậy nó đạt giá trị nhỏ 
nhất tại một điểm mà đạo hàm riêng theo cả hai biến ø và b bằng 0. 


Từ đó ta có hệ phương trình tuyến tính theo a và b: 



















































































2B(W-sX-9Ÿ) — 2aE(X?) — 2BE(X) — 2E(XY) = 
ØE((Y—aX—ð)®) ¬ n Ki»0) 
nh = 2b— 2aE(X) — 2E(Y) =0 
Nghiệm duy nhất của hệ phương trình tuyến tính trên là a = "_. 
0dT 





























và b = E(Y) — aE(X), bởi vậy đấy là điểm cực tiểu của JE((Y — aX — 




















b)?). Có thể tính ra rằng, giá trị cực tiểu của E((Y — aX — b)?) bằng 
0ar(Y).(1T— r(X,Y)?). 

















SN Ày và b = IR(Y) — 


alE(X) được gọi là đường hồi qui tuyến tính (linear regression), hay 











Đường thẳng ¿/ = az + b với các hệ số a = 




















đường quan hệ tuyến tính khớp nhát (fittest) cho hai biên ngẫu nhiên 
X và Y, với sai số bình phương nhỏ nhắt. Đường này là một trường 
hợp riêng (trường hợp tuyến tính đơn biến) của phương pháp hồi qui 
(regression, mục đích là để viết được một biên ngẫu nhiên dưới dạng 
hàm số của các biến ngẫu nhiên khác, với sai số chấp nhận được), 
theo nguyên tắc bình phương nhỏ nhất. 

Trong thực tế, ta không biết hết các giá trị của (X,Y) (tức là 
không biết chính xác phân bô đồng thời của (X,Y)), mà chỉ biết 
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một số giá trị (Xị,Yị),...,(X„, Y„) của nó (gọi là các giá trị thực 
nghiệm). Khi đó, thay vì không gian xác suất ban đầu của (X, Y), ta 
có thể sử dụng mô hình không gian xác suất thực nghiệm gồm ø 
phần tử, với phân bố xác suất đều, và mỗi phần tử ứng với một cặp 
giá trị (X;, Y;). Ta có thể coi (X,Y) như là vector ngẫu nhiên trên 
không gian xác suất thực nghiệm này. Khi đó phân bố của (X,Y) 
trên IR2 cảm sinh bởi không gian xác suất thực nghiệm này được gọi 
là phân bố đồng thời thực nghiệm, và các phân bố biên cảm sinh 
cũng được gọi là các phân bố thực nghiệm (với cõ của mẫu thực 
nghiệm bằng 0). Việc tính toán hồi qui trong thực tế là dựa trên các 


phân bồ thực nghiệm. 


Ví dụ 3.8. Tiếp tục ví dụ |a.6| về quan hệ giữa diện tích căn hộ và 
giá căn hộ. Có thể tính được rằng (chẳng hạn có thể dùng chương 
trình gretl để tính), trong ví dụ này, đường quan hệ tuyến tính khớp 
nhất là đường thẳng ¿ = 6, 14z + 13, 7. Xem hình|3.1| Các điểm (z, ) 
trong đỗ thị phát tán nằm ở hai bên của đường thẳng, và nói chung ở 
gần đường thẳng. Chú ý rằng, nêu phần lớn các điểm của đỗ thị phát 
tán nằm càng gần đường hồi qui tuyến tính, thì sai số bình phương 














%(Ie|2) càng nhỏ, và hệ sô tương quan bình phương z2 càng gần 1. 


Bài tập 3.16. (Số vụ án mạng, tự sát, và tỷ lệ đân có súng). Bảng thông 
kê sau là về sô vụ án mạng và số vụ tự sát tính trên 1 triệu dân trong 
1 năm, và tỷ lệ số gia đình có súng, ở một sô nước trên thế giới, trong 
các năm 1983-1986, theo số liệu của wHdð] 





®)Nguôn: M. Killas, International correlation between gun ownership and rates of 
homicide and suicide, Can. Med. Assoc. J. 1993, 148 (10), 1721-—1725. 
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Nước Án mạng | Tự sát | % gia đình có súng 
Australia 19,5 115,8 19,6 
Belgium 18,5 231,5 18,6 
Canada 26,0 139,4 29,1 
England & Wales G,7 86,1 4,7 
Einland 296 | 253,5 352 
France 12,5 223,0 22,6 
The Netherlands 11,8 117,2 1,9 
Northern Ireland 46,6 92,7 8,4 
NÑorway 12,1 142,7 32,0 
Scotland 16,3 105,1 4,7 
Spain 13,7 64,5 13,1 
Switzerland 11,7 244,5 27,2 
United States 75,9 124,0 48,0 
West Germany 12,1 203,7 8,9 




















Dựa vào bảng trên, hãy tính các hệ số tương quan giữa các cặp 
biến trong 3 biến ngẫu nhiên: “tỷ lệ gia đình có súng”, “sô vụ án 
mạng” và “số vụ tự sát”, và tính các đường hồi qui tuyến tính giữa 
của các cặp biên ngẫu nhiên, theo nguyên tắc sai số bình phương nhỏ 


nhất. 


3.4.4. Hệ số tương quan và quan hệ nhân quả 


Các biên ngẫu nhiên mà có hệ số tương quan lớn về giá trị tuyệt 
đối, thường có quan hệ nhân quả (causation) với nhau, liên hệ mật 


thiết với nhau về logic. Ví dụ, học nhiều thì trình độ cao, trình độ cao 
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thì dễ xin được việc đòi hỏi trình độ cao. Những việc đòi hỏi trình độ 
cao, ít người làm được, thì phải trả lương cao để tuyển được người. 
Từ đó suy ra học nhiều thì thu nhập đễ cao hơn là không có học. Tức 
là có quan hệ nhân quả giữa “sô năm đi học” và “mức thu nhập”. 
Hoặc là ví dụ phía trên về diện tích căn hộ và giá căn hộ: diện tích 
càng rộng thì ở càng sướng và giá thành cũng càng cao, bởi vậy giá 
cũng càng cao, tuy rằng tắt nhiên có những chỗ diện tích nhỏ lại đắt 
hơn chỗ khác diện tích rộng hơn, vì giá căn hộ còn phụ thuộc vào 
những yêu tô khác ngoài diện tích, như là địa điểm, chất lượng nhà, 
V.V. 

Tuy nhiên, không phải lúc nào quan hệ nhân quả cũng rõ ràng. 
Ví dụ, một nghiên cứu năm 2009 ở đại học Mainz cho thấy ở Đức, 
“béo phì” (obesity) và “mắc nợ đầm đìa”(over-indebtedness) có tương 
quan mạnh với nhad®| nhưng không rõ là cái nào dẫn đến cái nào 
và như thế nào: mắc nợ đầm đìa dẫn đến bị béo phì (do ảnh hưởng 
tâm lý), hay là bị béo phì dân đến mắc nợ (do dễ bị mắt việc hơn 
khi béo phì), hay là có những lý do chính khác. Hơn nữa, có những 
biến ngẫu nhiên mà về mặt logic có thể coi là không liên quan tới 
nhau, nhưng các giá trị của chúng có hệ số tương quan lớn, do tình 
cờ. Không gian xác suất càng nhỏ (càng ít phần tử) thì càng dễ xảy 
ra hiện tượng có các sự kiện không liên quan gì đến nhau nhưng có 


hệ sô tương quan lón. 


Ví dụ 3.9. (Lây từ Wikipedid®). Hình cho thấy có hệ số tương 


quan gần bằng -1 giữa số vụ tử vong vì tai nạn xe cộ ở Mỹ trong 





®Xem: http://www.sciencedaily.com/releases/2009/08/090811080751.htm 
)Xem trang web http://en.wikipedia.org/wiki/Correlation does_not _imply_causation 
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Hình 3.3: Tai nạn giao thông chết người và chanh tươi nhập khẩu 


những năm 1996-2000, và số quả chanh nhập khẩu sang Mỹ từ Mex- 
ico. Tuy nhiên người ta có thể tự hỏi: hai biển đó thì liên quan gì với 


nhau?! 


3.5 Phân bố và kỳ vọng có điều kiện 


Ở phần này chúng ta sẽ bàn về phân bố xác suất và kỳ vọng của 
một biến ngẫu nhiên X dưới điệu kiện Y = ¿, trong đó ¿ là một số 
và Y là một biến ngẫu nhiên khác. Trong trường hợp Y có phân bố 
xác suất liên tục tại , tức là P(Y = z) = 0, thì chúng ta không thể 
định nghĩa hàm phân phối xác suất có điều kiện P(X < z|Y = ÿ) 
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theo công thức xác suất có điều kiện thông thường, P(X < z|Y = 
) = P((X < z)n(Y = ø))/P(Y = ), mà chúng ta sẽ phải dùng các 
phương pháp giới hạn giải tích để định nghĩa và nghiên cứu nó. Còn 
trong trường hợp biến ngẫu nhiên Y có P(Y = ø) > 0, thì ta có thể 


dùng công thức xác suất có điều kiện thông thường. 


3.5.1 Trường hợp rời rạc 


Định nghĩa 3.8. Giả sử X, Y là hai biến ngẫu nhiên,  c IR, và P(Y = 
) > 0. Khi đó phân bô xác suất có điều kiện của X với điễểu kiện 


Y = là phân bỗ xác suắt trên IR cho bởi công thức sau: 


P(X € A,Y =p) 
PỤ =ÿ) 
(3.51) 


(với mọi tập hợp A C 1R thuộc sigma-đại số Borel). Hàm phân phối 





Pxiy=y(4) = Pxiy(Alu) = P(X < A|Y = u) = 


xác suât có điều kiện là hàm 





#xIy=y(#) = TxỊy(z|9) = PxIy=y( — œ, #]) = 














F240 đ—.)) 
(3.52) 
Kỳ vọng có điều kiện của X với điều kiện Y = ụ là 
B(XIY =g)= | =dPx\y=y. (3.53) 
zeR 


Nói cách khác, kỳ vọng có điều kiện chính là kỳ vọng của phân bố 
xác suất PxIy~y trên R. Trong trường hợp phân bố xác suất Px\y=y 


NÓ N. NLẢA .. / .. `1ẰN Z +Ä .A 
là rời rạc và tập trung tại các điểm z, +, ...., thì kỳ vọng có điều kiện 
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có thể được tính theo công thức 














DĐ đỀ 6i 2e, PxIy=y(#0 NI Ä.=f1(jj}ý =6), 


(3.54) 
P(X =ziu,Y =0) _ Pxy(ut) 


PY =ụ) —— Trụ) 
Ví dụ 3.10. Giả sử X và Y là hai biên ngẫu nhiên độc lập với phân 





NƠI PA =8#i|Ÿ‹-=0)<= 


bố Poisson với các tham số À và + tương ứng. Chúng ta sẽ tính phân 
bố xác suất có điều kiện của X với điều kiện X + Y cho trước, tức là 
tính P(X = k|X +Y = k+m). Tổng X + Y cũng có phân bố Poisson 
với tham số A + +. Bỏi vậy, 


CA.=k,Ÿ =mi) 
P(X+Y =k+m) 





P(X =k|X + Y =k+m)= 





























— pc ^jme 7 (k+m)lL Ahym 
— k+m, = -L_ k-+m. 
ni c~Q+*2) km! (A+ +)*? 
À À 
EunG22*G= xe<) 
Nói cách khác, đặt r = k + mm, ta có 
À À 
P SY kì = Ch k 1 Làn d 
xixey=r(E) =C‡CT—}* = TT) 
có nghĩa là ñịm bố xác suất PxIx+„=y là phân bố nhị thức với các 
tham số r và „ xẮ= +: Từ đó suy ra E(X|X + Y =r)= - : 
3 


Kỳ vọng có điều kiện có thể được dùng để tính kỳ vọng không 


điều kiện qua công thức sau: 
Định lý 3.19. Giả sử Y là một biến ngẫu nhiên rời rạc và X là một 
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biến ngẫu nhiên. Khi đó 


























R(X) = _E(X|Y =w)PŒ =). (3.55) 
Ụ 

Chứng minh. Ta có thể viết X = 3), X„, với Xy = X khi mà Y = 

ụ và X„ = 0 khi mà Y # . Khi đó E(X|Y = y) = E(Xy)/P(Y = 0), 


và 



























































E(X) =E(}` Xu) = }`E(X,) = }`E(X|Y = y)P(Y = 0). 























Ví dụ 3.11. Giả sử một cửa hàng bán một loại đồ chơi đặc biệt. Mỗi 
khách hàng trong ngày có xác suât mua đỗ chơi đặc biệt là p, và các 
quyết định mua của các khách hàng là độc lập với nhau. Số khách 
hàng trong ngày là một số ngẫu nhiên N tuân theo phân bố Poisson 


với tham số A. Gọi K là số khách hàng mua đồ chơi đặc biệt trong 




















ngày. Chúng ta muốn tính E(W|N = n0) và IE(K). Các giả sử phía trên 
cho biết ?(N = n) = A"e~^/m! (phân bố Poisson), và P„|y(k|n) = 
C#p*(1 — p)* (phân bô nhị thức). Từ đó suy ra E(K|N = n) = mn, và 
B(K) = }) „E(K|N = n)P(N = n) = pồ_„nP(N = n) = pR(N) = 
”À. 
























































Bài tập 3.17. Chứng minh rằng, trong ví dụ biến tuân theo 
phân bồ Poisson với tham số pÀ, và E(N|K = k) = k + A(1 — p). 














Bài tập 3.18. Giả sử X có phân bố mũ với tham số À > 0. Giả sử Y là 
biến ngẫu nhiên sao cho khi X = z thì Y có phân bố đều trên đoạn 
thẳng [0, z]. Hãy tính E(Y). 
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3.5.2 Trường hợp liên tục 


Khi P(Y = ø) = 0, ta không định nghĩa được P(X < z|Y = 0) 
một cách trực tiếp như trong trường hợp P(Y = ) > 0, mà phải 
dùng đến các phép toán giải tích có sử dụng giới hạn. Một trong các 


định nghĩa có thể dùng là: 


#xIy=y(z) := P(X < #|Y = 9) := JHm, P(X <xl|u<Y <y+e), 
(3.56) 
nêu như giới hạn trên tổn tại. Trong trường hợp rời rạc, có thể chứng 
minh rằng giới hạn trên luôn tổn tại và cho kết quả trùng với định 
nghĩa thông thường. Ở đây chúng ta sẽ chỉ quan tâm đến những 
trường hợp liên tục “đủ tốt” sao cho giới hạn trên tỔn tại. 
Giả sử vector ngẫu nhiên (X,Y) có hàm mật độ đồng thời øx,y 


` Z ` ^ A 1+*A s Lệ z 2ˆ - *Ã 
và các hàm mật độ biên øx, øy. Khi đó ta có thể việt: 


PŒ <zlŸY =) = lim PỤX Š z|ụ Š Ÿ Šw+ €) = 


_ nạ P{[<%w<Y<w+9 _ ý =( “øxv($)ds)di — 
— c>0+ P(<Y <ụ+©) — c0+ JƑ”“pvy(s)ds s 











JZ. Im.¬o+(ƒ?” px,y (t, )ds/©)dt lì 0x. (9) 
lime ;o+([Ƒ”° øy(5)4s/©) -œ_ YÂW) 


dt, 
và bởi vậy, ta có: 
Mệnh đề 3.20. Trong trường hợp liên tục tuyệt đối, nếu py (u) > 0 thì 


hàm mật độ của phân bô xác suất có điêu kiện Px|y~„ chính là hàm 


0x,y(z,9) 


3.57 
0y (9) nnY 


0xỊy (|9) = 0xIy—y() = 
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Kỳ vọng có điều kiện trong trường hợp liên tục có thể được viết 
dưới dạng: 






































B(X|Y = 0) = | #4Pxir=, = / #pxỊy (|u)dz. (3.58) 
Định lý 3.21. Ta có các công thức sau: 
lỆ) v 
Zx(z)= P(X <ø)= Ƒ_ fxw-vz)pv()dụ (3.59) 
1) B 
3(X) = [__ E(XỊY = ø)pr(0)dụ (3.60) 


Chứng minh. Kiểm tra công thức thứ hai: 


R(X) si, J ®px,y (,1)dzdụ 
=—œ Jz=—oco 


ˆ II ( II #px.y(vli)pv(u)dz) đụ 


= là 1(X|Y = 9)øy (w)dụ. 


—C© 


























Chứng minh của công thức thứ nhất hoàn toàn tương tự, và nhường 
cho bạn đọc làm bài tập. Công thức thứ nhất cũng có thể được suy từ 
công thức thứ hai, bằng cách thay biến ngẫu nhiên X bằng biến ngẫu 
nhiên +„ định nghĩa bởi: „ = 1 khi X < z và 4 = 0 khi X > z. 
(Khi đó E(„) = 7Zx(z)). 


























Ví dụ 3.12. Xét vector ngẫu nhiên liên tục (X,Y) với hàm mật độ: 
0x,y(#,) = 1/+ khi 0 <  < z < 1, và øx,y(z,) = 0 tại các điểm 
khác. Dễ thấy rằng, với mỗi z cô định, 0 < z < 1, phân bố xác suất có 


điều kiện yJx—„ là phân bố đều trên đoạn thẳng ]0, +], với hàm mật 
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độ bằng 1/z trên đoạn thẳng đó. Phân bồ xác suất biên Px là phân bố 
đều trên đoạn ]0, 1]. Từ đó suy ra E(Y) = ƒg E(Y|X = z)øx(œ)dz = 
J) E(Y|X = z)dz = Íq (œ/9)dz = 1/4. 






































3.6 Phân bố normail nhiều chiều 


3.6.1 Định nghĩa của phân bố normal nhiều chiều 


Phân bô normal ø chiều (ø > 2) là mở rộng của khái niệm phân 
bố normal trên IR lên trường hợp nhiều chiều, và đóng vai trò rất 
quan trọng trong việc nghiên cứu các quá trình ngẫu nhiên (mà trong 
khuôn khổ của quyển sách này chúng ta không bàn tới). Ví dụ đơn 
giản nhất của phân bố normal nhiều chiều là, nêu Z¡,..., Z„ là một 
bộ ø biên ngẫu nhiên độc lập với nhau và cùng tuân theo phân bố 
normal chuẩn tắc ,V(0, 1), thì phân bố đồng thời của (Z¡,..., Zạ), 
với hàm mật độ đồng thời 





__ 1 rời 
Đi» sa) s (v2a)" cxp Í 2 ) , (3.61) 


là một phân bố normal nhiều chiều, gọi là phân bố normal nhiều 
chiều chuẩn tắc. Tương tự như trong trường hợp một chiều, ta muốn 
rằng một biên đổi tuyến tính (hay affine, tức là tuyến tính cộng với 
một phép tịnh tiễn) của một phân bố normal nhiều chiều cũng là một 


phân bố normal nhiều nhiễu. Bởi vậy ta có định nghĩa sau: 


Định nghĩa 3.9. Ta nói rằng một vector ngẫu nhiên X = (X\...., X„) 
có phân bố normail ø chiều, nếu như tôn tại một bộ m biến ngẫu 


nhiên 2 = (Zì,..., Zm) độc lập (m € Ñ), với các Z¡ cùng tuân theo 
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phân bỗ normal chuẩn tắc .\(0, 1), một ma trận A = (œj)‡=i"”””" và 


KH. 


một vector Ju = (uì..... ty) (A và gu là hằng số), sao cho: 


Xí=A.Z!+ H. (3.62) 


Chữ ¿ ở trong công thức trên là phép chuyển vị ma trận, để biến 


các vector hàng thành vector cột. Nói cách khác, 


m 
Xị =  ajyZạ + Hạ Ví = 1,...,n. (3.63) 
k=1 

Tương tự như trong trường hợp 1 chiều, các phân bố normal 
nhiều chiều có thể dùng làm mô hình xác suất của khá nhiều vẫn 
để thực tế. Ví dụ, bộ 3 biến (chiều cao của một người đàn bà, cân 
nặng của người đó, chỉ số trí tuệ của người đó) có thể được coi là 1 
vector ngẫu nhiên 3 chiều với phân bố normal 3 chiều. Cơ sở toán 
học để giải thích điều này cũng là định lý giới hạn trung tâm. 

Vì tổng của các biên ngẫu nhiên độc lập với phân bô normal cũng 
là biến ngẫu nhiên với phân bố normal, nên nêu X = (X:...., X„) có 
phân bố normail w chiều, thì các thành phần X; của nó đều có phân 
bố normal, tuy điều ngược lại không đúng. 

Ma trận đôi xứng Ð = A.A/, trong đó 4 là ma trận trong định 
nghĩa trên, được gọi là ma trận hiệp phương sai của phân bố normal 
nhiều chiều trong định nghĩa. Lý do là vì phần tử »;; của ma trận > 
chính là hiệp phương sai cou(X;, X;) của X; và X;. Thật vậy, theo 
định nghĩa, ta có X; = }}¿ a¿Z¿ + u¿, với kỳ vọng bằng /;. Từ đó suy 
ra cou(X;, X;) = E(C 7 4¡2)(Ð Öy 4jk22w)) = Ð 7k 0k6jk = J¡j. 

Vector ¿ được gọi là vector kỳ vọng của phân bố normal nhiều 


chiều trên. Một phân bố normal nhiều chiều được xác định duy nhất 
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bởi ma trận hiệp phương sai > và vector kỳ vọng của nó, và thường 
được ký hiệu là .V(w,>). 

3.6.2 Trường hợp hai chiều 


Để hiểu hơn về phân bố normal nhiều chiều, trước hết chúng ta 
sẽ xét kỹ hơn trường hợp 2 chiều. Gọi (X¡, X;) là một vector ngẫu 


nhiên 2 chiều với phân bố normail. Theo định nghĩa, ta có: 


+n +n. 
Xi= bš œ1 +, Äa = , d2 + H1, (3.64) 
¿=1 mi 
trong đó Z¡,..., Z„ là một bộ rn biến ngẫu nhiên độ lập có phân bố 


normal chuẩn tắc .V(0, 1). 


Ma trận hiệp phương sai > trong trường hợp này là ma trận 2 x 2, 
với 4 phần tử: 


}ịi= san, 312 = È21 = À  aid2k, }aa = À đấy. (3.65) 
k k k 


Bổ đề 3.22. Nếu ma trận hiệp phương sai Ð là ma trận đường chéo, 
tức là 3a = 3s¡ = cou(X\, Xa) = 0 thì hai biến ngẫu nhiên Xì và Xa 


độc lập với nhau. 


Chứng minh. Có thể kiểm tra trực tiếp theo định nghĩa, hoặc là 
dùng hàm đặc trưng, kiểm tra rằng ®(x;,x;)(S1; 82) = ®x;(s1).®xị (52) 
nêu như cou(X), X:) = 0. Chú ý rằng, nêu Xi, là hai biến ngẫu 
nhiên tùy ý, thì từ coo(X:, X;) = 0 không suy ra được rằng X; độc 
lập với Xs. Nhưng ở đây X; và X: là hai thành phần của một vector 











ngâu nhiên với phân bô normal, nên điều đó đúng. 
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Nếu » không có dạng đường chéo (»¡z # 0), thì vì » đối xứng 
nên ta có thể đường chéo hóa nó bằng một ma trận 2 x 2 vuông góc 
(orthogonal) Œ (vuông góc có nghĩa là C~! = Œ9: Y' = C~!1XC = 
C3 là ma trận đường chéo. Đặt (Y1, Ya) = Œ~†.((Xì, X¿)?— m!) = 
(CT1A).Z!. Khi đó (Y¡, Y›) có phân bô normal, và có ma trận hiệp 
phương sai bằng (C~!A)(C~!A)? = ©~!ŠŒ = 3, là một mà trận 
đường chéo, và bởi vậy Y¡ và Y› độc lập với nhau. Ta có thể viết 
Yị = đ\Z{, Ya = 8sZ4, trong đó ơi và a¿ là độ lệch chuẩn của Y¡ và 
Y2, và Z¡ và Z2 độc lập và có phân bố normal chuẩn tắc (0, 1). Vì 
(Xi, Xa)! = Ơ.(Yi, Y2)! + øÈ) nên ta có thể viết: 


Xi =a1¡.Z[ + đ1a.25 + mà s69 


Ä¿ = đ21.21 + đạa.22 + Hạ 





Có nghĩa là, trong trường hợp vector 2 chiều, ta luôn có thể giả sử 
m = 2: Để sinh ra một vector ngẫu nhiên 2 chiều với phân bố normal 
tùy ý, chỉ cần biên đổi tuyến tính một vector ngẫu nhiên 2 chiều với 
phân bố normal chuẩn tắc. 

Trường hợp detĐ = 0 gọi là trường hợp suy biến. Khi đó (ít 
nhất) một trong hai giá trị riêng (eigenvalue) của » bằng 0, suy ra 
một trong hai biên ngẫu nhiên, Y¡ và Y› phía trên là hằng số, và khi 
đó thực ra ta chỉ cần một biến ngẫu nhiên với phân bô normal chuẩn 
tắc (0, 1) để sinh ra vector (X:, X;). Nói cách khác, trong trường 


hợp suy biến, ta có thể viết 


Xi=ơ@I1Z+1 
Xa = 022 + la 


(3.67) 





với œ1, œ¿ là hãng sô, và Z là một biên ngâầu nhiên có phân bô normal 
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3.6. Phân bỗ normal nhiều chiều 


chuẩn tắc ,V(0, 1). Phân bố đồng thời của (X¡, Xa) trong trường hợp 
suy biên tập trung trên đường thẳng œa(# — ị) = œ1(#s — /uạ) trong 
IR?, và bởi vậy nó không có hàm mật độ trên IRŸ. 
Trường hợp det Ð # 0 gọi là trường hợp không suy biến. Khi đó 
phân bố xác suất của X = (X:, Xz) có hàm mật độ sau: 
l1 l 
0Xx(X) = TP SxP(—s5 


Thật vậy, nêu thay vì xét hệ tọa độ x = (z¡, za) trên IR?, ta xét hệ tọa 





(x— w).»"1.(x— m)°). (3.68) 


độ mới y = (ø¡. z), qua phép biến đổi affine yf = Œ~1.(xf — m), thì 
ta có 

0x(x) = øv(y) (3.69) 
(hàm mật độ không thay đổi, vì phép đổi biến bảo toàn diện tích 
Euclid), và 
1 9Ï `. ) 
26. đã 
“—==®t®( s0.) 1y) 

2zvdet 3 2à 
1 _ 
(x—m).5°.(— 8)°). 


1 
= eX 
27V det > p[ 2 


Các đường mức của hàm mật độ øx(x) của phân bố normal hai 





0x(y) = øi(0)Ø;(lM) = s~2—a- exP( 








chiều trên IR2 là các đường ellipse, với tâm điểm tại x = m (không 
điểm của hệ tọa độ (g¡,2)) và các trục là các trục của hệ tọa độ 
(1; 92). 

Ví dụ 3.13. Hàm 








(z2 — 2rzụ + 2) 
(3.70) 


1 l1 
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là hàm mật độ của một phân bố normail hai chiều (bivariate normal 
distribution) với tham số r,—l<r<1.Tham SỐ r Ổ đây chính là hệ 
sô tương quan giữa hai thành phần X và Y. Các phân bố biên ?x và 
Đy của phân bố normal hai chiều này là các phân bô normal chuẩn 


tắc (0, 1). Ma trận hiệp phương sai ở đây là mà trận 


củ 
= : (3.71) 
m1 


Hai thành phần X và Y ở đây độc lập với nhau khi và chỉ khi z = 0. 


3.6.3. Một số tính chất của phân bố normail nhiều chiều 


Định lý 3.23. Giả sử một vector ngẫu nhiên n chiều X có phân bỗ 
normal. Khi đó phân bố của nó được xác định duy nhất bởi ma trận 
hiệp phương sai 3 và vector kỳ vọng u của nó. Nói cách khác, hai phân 
bố normal n chiều có cùng ma trận hiệp phương sai và vector kỳ vọng 
thì bằng nhau. 

i) Nếu hạng của ma trận hiệp phương sai Ð bằng k (k < n), thì X có 
thể được sinh bởi một họ k biến ngẫu nhiên độc lập có phân bố chuẩn 
4V(0,1) qua một phép biến đổi affine, và phân bố của X tập trung tại 
một không gian affine con có số chiều bằng k trên IR". 

iiÙ Nếu ma trận hiệp phương sai Ð là không suy biến (tức là det Ð z# 0, 
hay nói cách khác, hạng của » bằng n), thì phân bỗ normal .(, >) 
có hàm mật độ øx sau trên IR" (ở đây ta sử dụng các ký hiệu X = 
CN nyôa 2p] X0 002465 920n)ý Vd | de 3.)2 


1 1 
0x(%) = (2n)n/2|s|12 exp( a(x H).>'.(x— w)). (3.72) 
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3.6. Phân bỗ normal nhiều chiều 


Các mặt mức của hàm mật độ px là các hình ellipsoid đồng dạng có 
tâm điểm tại tu. Nếu ma trận Ð suy biến thì phân bố .V(, Ð) không có 
hàm mật độ. 


iv) Với mọi e = (cị,....c„) € IR", biến ngẫu nhiên X = 31/053 














có phân bỗ normal .N(ụu,ø?), với ¡ = R(X) = $7? đt, và ơ? = 
oar(S?¡e¡X;) = c.S.c!, (Nếu uar(Ÿ3?¡ œXj) = 0 thì X là hằng số, 
có nghĩa là phân bỗ xác suắt của X tập trung tại một điểm). 

v) Ngược lại, giả sử rằng (X\...., X„) là một vector ngẫu nhiên với 
tính chắt: phân bố xác suắt của >3;_¡ œX; là phân bỗ normal (hoặc là 
tập trung tại một điểm) với mọi (c\,.... c„)  R". Khi đó, phân bỗ xác 


suắt đông thời của (Xì,..., X„) là một phân bố normal n chiêu. 


Trong mục trước, chúng ta đã chứng minh về cơ bản định lý trên 
trong trường hợp 2 chiều, trừ khẳng định cuối cùng. Trường hợp tổng 
quát ø chiều chứng minh hoàn toàn tương tự trường hợp 2 chiều. 


Khẳng định cuối cùng có thể chứng minh bằng cách xét hàm đặc 











trưng. 





Bài tập 3.19. Chứng minh rằng phân bố normal ø chiều .V(, Ð) có 


hàm đặc trưng sau: 
1 
®(s) = exp(V—1.s” — g5..8)). (3.73) 


Bài tập 3.20. Giả sử X và Y là hai biễn ngẫu nhiên độc lập tuân 
theo phân bố normal chuẩn tắc .V(0,1). Tính hàm mật độ của Z = 
l1 

sứ sh] Sà: 

Bài tập 3.21. Ta gọi phân bố Cauchy là phân bồ liên tục trên IR với 
hàm mật độ sau: 


0) = : (3.74) 


_ m(1+z2)' 


175 


Chương 3. Vector ngẫu nhiên 


(Phân bố này không có kỳ vọng, và không có phương sai hữu hạn). 
Chứng minh rằng nêu Z¡ và Z¿ là hai biên ngẫu nhiên độc lập tuân 
theo phân bô normal chuẩn tắc ,V(0, 1), thì Z¡ /Z¿ có phân bố Cauchy. 
Bài tập 3.22. Giả sử vector (X,Y) có phân bố normal 2 chiều với 
hàm mật độ 
(,U)=——SP(~s~ 
# = ex 
PEHALN TEMỢ: SOp/=npSr ?PVx {PS )5 
¡) Chứng minh rằng X và Z = (Y — zX)/(1— r2)1⁄2 là các biên ngẫu 


nhiên độc lập có phân bố normal chuẩn tắc ,V(0, 1). 





(zˆ— 2rew + 9°)). 


1) Suy ra từ i) rằng 


1 1 
P({X>0,Y>0)= TP 2 Atsin 7. 


iii) Chứng minh rằng với mọi ¿ c R, phân bô xác suất có điều kiện 
PxIy~„ là một phân bố normal có phương sai không phụ thuộc vào 


điểm ¿, và tính phương sai và kỳ vọng của phân bồ có điều kiện đó. 
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Chương 4 
Các định lý giới hạn 


4.1 Định lý giới hạn trung tâm 


Định lý giói hạn trung tâm là được coi là định lý quan trọng nhất 
của xác suất thông kê, hòn đá tảng của thông kê toán học. Nó là một 
trong những định lý được trích dẫn sử dụng nhiều nhất của toàn bộ 


toán học hiện đại nói chung. 


4.1.1 Định lý de Moivre - Laplace 


Tiền thân của định giới hạn trung tâm tổng quát là định lý sau 
đây của de Moivre và Laplace về đáng điệu tiệm cận của phân bố xác 
suất nhị thức 

nÌ 


SN 





Tư HN ”)HMÓ (4.1) 
với tham số p cô định, khi ø tiến tới vô cùng. 


ly ý 


Chương 4. Các định lý giói hạn 





Hình 4.1: Abraham de Moivre (1667-1754) 


Định lý 4.1 (de Moivre - Laplace). Đặt 





z = z(n,È) = (k— nÐ)/Wnp(1 — p (4.2) 
Khi đó 
l 
Tụ : n(Ñ)), : 
(š) = Tn=n exp(—zz”).(1 + ổn()) (4.3) 


trong đó ô„(k) hội tụ đều đến 0 khi n tiến tới so, có nghĩa là 


lim supô„(k) = 0. 


7m,—>CO© k 
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4.1. Định lý giới hạn trung tâm 


Định lý |4.1| liên quan chặt chẽ đến công thức Sterling sau đây 
trong giải tích: 
mÌ 
lâMU ——steÏ: 4.4 
°tx VÕmn (1) „ 
Sử dụng công thức Sterling, có thể chứng minh khá dễ dàng định lý 
de Moivre — Laplace|4.1| và ngược lại, công thức Sterling cũng có thể 
suy được ra từ định lý Jä.1| Ở đây chúng ta sẽ tạm thời chấp nhận 
định Iý|4.1|và công thức Sterling mà không chứng minH(| 


Một hệ quả trực tiếp và quan trọng của định IýJa.1|là định lý sau: 


Định lý 4.2 (de Moivre - Laplace). Giả sử XỊ, Xạ,..., X„,... là các 
biến ngẫu nhiên độc lập có cùng phân bố xác suắt Bernoulli: P(X; = 
1)=p, P(X; =0) =1 p với mọi ¡. Đặt S„ = ÄXì +... + X„. Khi đó 


với mọi cặp số thực a < b ta có: 


. b 
ần Đ luc TU up ni — s—22/qy, (4.5) 
n—>oo np(1 — p) a V27 


Chứng minh. Theo giả thuyết, 5„ có phân bố nhị thức P(%„ = 
k) = P„(k) = CRp°(n — p)"—È. Đặt z = z(n,k) = s= 


Vmp(1T— p)` Sử 





{Các chứng minh cổ điển của công thức Sterling khá dài. Nhưng có thể xem một 
chứng minh ngắn gọn và đơn giản, dựa trên hàm gamma và định lý hội tụ bị chặn 
Lebesgue (định Iý|2.8 trong bài báo sau: J. M. Patin, A very short proof of Sterling's 
formula, The American Mathematical Monthly, Vol. 96 (1989), No. 1, pp 41-42. 
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dụng định lý|4.1| ta CÓ: 
Sụ — Dn 
Elas =—_ - šj|= à Tin) 
np(1 = P) a<z<b 
l1 J 
= Az———=xp(—>z7).+ø„(#)), (46 
32A» nSp(cg2)(L+ 60), (46) 
trong đó A„ = =.=... bằng bước nhảy của z trong tổng phía 
np(1 — ?) 


trên. Bởi vậy, theo định nghĩa tích phân Riemann, ta có 


1 1 P ẤT, cưa 
li Äw>—=ewBÍ=-” ni =8 dy, 4.7 
HN Án TH Uấn Tu Và on 











từ đó suy ra điều phải chứng minh. 





Định Iý|4.2|chính là một trường hợp riêng quan trọng của định lý 
giới hạn trung tâm bàn đến ở mục sau. 
Ví dụ 4.1. Tung một đồng tiền 1000 lần, có 600 lần hiện mặt ngửa. Ta 
có thể coi đồng tiền là cân bằng (hai mặt sắp và ngửa đều có xác suất 
hiện lên là 1⁄2) được không? Để trả lời câu hỏi đó, ta giả sử là đồng 
tiền cân bằng. Khi đó ta có phân bồ nhị thức với ø = 1000, p = 1/2, 
pn = 500, v/np(1 — p) % 15, 1811 Gọi k là sô lần hiện lên mặt ngửa 
trong sô + = 400 lần tung. Theo định lý de Moivre - Laplace, ta có 


6,521 
_ 521 
EliS00ƒ 2200| 6h co s c lay ——e-*/2ä„ > 
nmp(1 — Đ) 15, 1811 -oœ_ V27 


0, 9999999999. Điều đó có nghĩa là, nêu đồng xu cân bằng, thì xác suất 





để hiện lên mặt ngửa ít nhất 600 lần khi tung đồng xu 1000 lần nhỏ 
hơn 1/1010. Khả năng xảy ra điều đó là quá nhỏ để có thể tin được là 


đồng xu cân băng. 
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4.1. Định lý giới hạn trung tâm 


Ghi chú 4.1. Abraham de Moivre (1667-1754) là một nhà toán học 
người gốc Pháp, bị bắt đi tù năm 1688 vì lý do tôn giáo, sau đó di 
tản sang London và ở đó cho đến khi chết. Được bầu vào viện Hàm 
lâm Hoàng gia Anh (Royal Society) năm 1697. Cùng với Newton và 
Leibniz, de Moivre là một trong những người đầu tiên nghiên cứu 
phép tính vi phân (differential calculus), mà thời đó gọi là method oƒ 
fluxions. Khi người ta hỏi Newton về method of fluxions, Newton có 
khẳng định là “nên gặp de Moivre vì ông ta biết tốt hơn tôi”. Định 
lý de Moivre-Laplace về dáng điệu tiệm cận của phân bố nhị thức 
đầu tiên là do de Moivre phát hiện và chứng minh cho trường hợp 
p = 1/2 từ năm 1733, sau đó nó được Laplace mỏ rộng cho trường 
hợp p bắt kỳ. Ngoài lý thuyết xác suất và phép tính vi phân, de Moivre 
còn là một trong những người đầu tiên nghiên cứu lý thuyết tập hợp 
và sô phức. Công thức (eos(z) + ¿sin(z))” = eos(nz) + 2sin(nz) cho 
sô phức mang tên công thức de Moivre. 

Bài tập 4.1. Tính xác suất của sự kiện sau: tung một con xúc sắc 
(đều) 6000 lần, số lần xuất hiện mặt 6 là một số > 850 và < 1050. 


4.1.2 Định lý giới hạn trung tâm 


Giả sử Xì, X:,..., X„.... là một dãy các biên ngẫu nhiên độc lập 
có cùng phân bồ xác suất, với kỳ vọng bằng / và độ lệch chuẩn bằng 
ơ hữu hạn . Định lý giới hạn trung tâm sẽ cho chúng ta biết về đáng 
điệu tiệm cận của phân bố xác suất của tổng %„ = Xị +...+ X„, khi 
n tiên tới vô cùng. Trước khi xét đáng điệu tiệm cận của 5„, chúng ta 
sẽ chuẩn hóa nó. Bỏi vì nêu để nguyên, và giả sử chẳng hạn  > 0, 


thì theo luật sô lớn, phân bô xác suât của %„ sẽ bị dỗn về phía vô 
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cùng khi øw tiễn tới vô cùng, và như vậy thì nó không thể tiễn tới một 
phân bố cho trước nào đó. Nhắc hệ quả sau đây của sự độc lập của 


các biên X;: 






































E(Sn) = BS) =nu, '0ef(Sw)= 3 øar(X;) =nơ? (4.8) 
¿=1 ¿=1 
Đặt Z„ — ĐH TẾ ch 
dvn 
Min) =Ú, “0a ný} = dì (4.9) 
Sụ — Thu 


Điều đó có nghĩa là, qua phép biên đổi tuyến tính Z„ = ““——”, 
gvn 
ta có thể đưa biến ngẫu nhiên %„ về một biên ngẫu nhiên Z„ có kỳ 
vọng bằng 0 và phương sai bằng 1. Biên ngẫu nhiên Z„ này được gọi 
là chuẩn hóa của Š%„, hay còn gọi là tổng chuẩn hóa của X),..., X„. 
Sau khi đã chuẩn hóa như vậy, ta có thể so sánh dáng điệu của phân 
bố của Z„ với các phân bô chuẩn hóa khác (có cùng kỳ vọng bằng 0 
và độ lệch chuẩn bằng 1). Định lý giới hạn trung tâm phát biểu rằng, 
bất kể phân bố ban đầu (của X)) ra sao, khi w lớn thì phân bố của 
tổng chuẩn hóa Z„ có thể được xắp xỉ rất tốt bằng phân bố normal 
2(0, 1), và khi ø tiễn tới vô cùng thì nó tiễn tới .V(0, 1). Nói một cách 


chính xác hơn: 


Định lý 4.3 (Định lý giới hạn trung tâm). Giả sử Xì, Xa,..., Xạ,... 
là một dãy các biến ngẫu nhiên độc lập có cùng phân bố xác suắt với kỳ 


vọng bằng u và độ lệch chuẩn bằng ơ hữu hạn. Đặt 


— tà X;) — nụ 
Z2#= mm : (4.10) 
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4.1. Định lý giới hạn trung tâm 


Khi đó với mọi a,b € ], a < b, ta có: 


b 
1 2 

lim P(a< Z„<b)= | —_—-e"* 2d. 4.11 

Pa <Zu <9) = [ Ván (Đ) 


Một cách phát biểu tương đương là: 


Định lý 4.4 (Định lý giới hạn trung tâm). Giả sử X1, Xa,..., Xa,... 


là một dãy các biến ngẫu nhiên độc lập có cùng phân bố xác suắt với kỳ 
®57~1 X¡i)—nh 


Øy/T: 


vọng bằng u¡ và độ lệch chuẩn bằng ơ hữu hạn. Đặt Z„ = 


Khi đó với mọi tập con A C IR thuộc sigma-đại số Borel, ta có: 


| l„x 
jm Pz„(4) = lim P(2a € 4) = II —=€ * /?đ# = P(oa(A). 


A V3z 
(4.12) 


Ghi chú 4.2. Nhiều nhà toán học đã đóng góp vào định lý giới hạn 
trung tâm: đầu tiên là de Moivre trong thê kỷ 18, rồi đến Laplace, 
Cauchy, Bessel, Poisson trong thê kỷ 19, rồi đến các nhà toán học 
Chebyschev, Markov, Lyapunov cuối 19 đầu thế kỷ 20, rồi đến các 
nhà toán học của thê kỷ 20 như von Mises, Polya, Lindeberg, Cramér 
phát triển và mở rộng nó, v.v. Tên gọi định lý giới hạn trung tâm 
(tiếng Đức: zentraler Grenzwertsatz) là do George Polya đưa ra năm 
1920 trong một bài báo nhan để như vậy. Một điều thú vị là Alan 
Turing (một trong những cha tổ của tin học hiện đại) cũng viết luận 
án về định lý giới hạn trung tâm vào năm 1934, trước khi phát hiện 
ra rằng kết quả của mình đã được Lindeberg làm ra từ năm 1922. 
Người đầu tiên phát biểu và chứng minh định lý giói hạn trung tâm 
cho một phân bố tổng quát có lẽ là Alexandr Mikhailovich Lyapunov 


(1857-1918), một nhà toán học người Nga, học trò của Chebyschey, 
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AAercanôp ÄÍuzaũ.toeux 
JI Ø1! II V HOB 


Hình 4.2: Alexandr M. Lyapunov (1857-1918) 


` « Nà A ` Ầ ⁄Z HN ` + ,*Á 
vào năm 1901. Ngoài công trình về xác suât, Lyapunov còn nổi tiêng 

Ầ Z7 ^ ` ` . ^ ` r s 2 7 
về các công trình trong phương trình vi phân và sự ổn định của các 


hệ động lực (ổn định Lyapunov, các lũy thừa Lyapunoy, v.v.). 


Bài tập 4.2. Một nhà máy sản xuất dây xích bằng thép, mỗi dây gồm 


nhiều mắt xích. Độ dài của các mắt xích được định nghĩa sao cho độ 
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4.1. Định lý giới hạn trung tâm 


dài của dây xích bằng tổng độ dài các mắt xích. Phòng nghiên cứu 
của nhà máy đo thấy độ dài các mắt xích là một biên ngẫu nhiên X 
có kỳ vọng là 5em và độ lệch chuẩn là 0,1cm. Nhà máy bán loại dây 
xích dài 50m, và để yên tâm về độ dài, xây xích đó được nối bằng 
1002 mắt xích. Nhà máy cam đoan rằng không có dây xích nào loại 
này dài dưới 50m, và nếu khách hàng nào mua phải dây dài dưới 
50m thì được đền tiền và được tặng một dây khác miễn phí. 

ï) Ước lượng xác suất để sao cho một dây xích với 1002 mắt xích có 
độ dài dưới 50m. 

iD Sau một thời gian, bộ phận bán hàng của nhà máy thây có nhiều 
dây xích dài dưới 50m bị trả lại, và hỏi phòng nghiên cứu xem vẫn 
để nằm ở đâu. Sau khi điều tra, phòng nghiên cứu phát hiện là đo 
không thật chính xác: kỳ vọng của chiều dài mắt xích không phải là 
5cm mà là 4,993cm. Với kỳ vọng này, xác suất để một dây xích với 
1002 mắt xích có độ đài dưới 50m là bao nhiêu? 


Bài tập 4.3. ï) Chứng minh rằng tổng của ø biến ngẫu nhiên độc lập 
có phân bô Poisson với tham số 1 là một biến ngẫu nhiên có phân bố 
Poisson với tham sô n. 

i) Dùng kết quả trên và định lý giới hạn trung tâm để chứng minh 
khẳng định sau: 


lim Pu SŠm)= 1/2. 


T+>CO© 


trong đó X„ là biên ngâu nhiên có phân bô Poisson với tham sô ø, và 


từ đó suy ra: 





2 m 1 
hi 22|/022 Ác van” =.- 
n—>oo 1! 2I nÌ 2 
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4.1.3. Giới hạn của dãy hàm đặc trưng 


Để chứng minh định lý giới hạn trung tâm, chúng ta sẽ xét các 
= © 2=! Ä¡) — nu 
vn ' 


trong đó X:, X›,..., X„,... là một dãy các biến ngẫu nhiên độc lập 





hàm đặc trưng ®z„ của các tổng chuẩn hóa Z„ 


có cùng phân bồ xác suất với kỳ vọng bằng ¿ và độ lệch chuẩn bằng 


ơ hữu hạn. 
Mệnh đề 4.5. Với mọi s € IR ta có 


lim ®z, (s) = exp(—s2/2). (4.13) 


T,—>©O 


Chứng minh. Theo công thức biến đổi hàm đặc trưng khi biến 
đổi biến ngẫu nhiên một cách tuyến tính (xem khẳng định iii) của 
định Iý|2.18}, và công thức tính hàm đặc trưng của một tổng các biến 
ngẫu nhiên độc lập (xem khẳng định iv) của đỉnh Iý|3.6}, ta CÓ: 


®z„ (3) = exp (=>) D> (s5) 
` c«p Í= .. )Ï [I*x (c3) 


-( 509) (29) 
do đó 


In(®z„(s)) = -H, là ca (s (Sàn) 





= -V-lInut+nln(®x,()), (4.14) 


trong đó £ = Khi ø tiễn tới o thì ¿ tiễn tới 0. Hàm #x,() 


8 
zvm. 


khả vi liên tục 2 lần và có ®x,(0) = 1, ®x (0) = v—lu, ®%,(0) = 
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4.1. Định lý giới hạn trung tâm 














—E(X?) = —(ø? + „2). (Xem định lý [2.18). Do đó hàm In ®x, cũng 
khả vi liên tục hai lần trong lân cận của 0, và In ®x, (0) = 0, (In®x,)(0) = 
V1, (In®x,)”(0) = —ø? Theo công thức khai triển Taylor-Lagrange, 
ta CÓ: 

Inföyfiflie23/1iE= sơn + o(?), 
trong đó o(/2) là ký hiệu Landau: o(/2)/?2 tiên tới 0 khi ¿ tiễn tới 0. 
Do đó 





l1 
In(®z„(s)) = —VW—1nt + n(W—1t 7£ Lo(£2)) 
l1 l1 
= —pnơ? + no(t?) = _. + no(t?). 


Khi ø tiễn tới vô cùng thì no(/?) = ‡2o(/?)/? tiên tới 0, đo đó 
lim ®z,(s) = exp( lim In(®z„(s))) 
?ìi—>C© 


T+>CO© 


l1 l1 
= exp( lim. j„.ẻ + no(‡?)) = exp(—z8`), 














là điều phải chứng minh. 
Nhắc lại rằng hàm ®(s) = exp(—s2/2) chính là hàm đặc trưng 

của phân bố normal chuẩn tắc (0, 1). Định lý giới hạn trung tâm 

|4.3|suy ra trực tiếp từ Mệnh đề và mệnh để sau: 

Mệnh đề 4.6. Giả sử có một dấy biến ngẫu nhiên Z„ với các hàm 

đặc trưng ®z„ tương ứng sao cho, với mọi s € RR, ®z, (s) hội tụ đến 

®(s) = exp(—s2/2) khi n tiến tới vô cùng. Khi đó với mọi a,b € ]3, 


œ < b, ta có 


b 
1 2 
lim P(ø < Z„ < b)= II “1... (4.15) 
a W2m 


T+>CO© 
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Mệnh đề trên là một trường hợp riêng của định lý liên tục 4.11|vẻ 
tiêu chuẩn hội tụ yếu của các phân bô xác suất, mà chúng ta sẽ bàn 


đến trong phần sau. 


4.2 Hội tụ yêu và các kiểu hội tụ khác 


4.2.1 Hội tụ yêu và hội tụ theo phân phối 


Định nghĩa 4.1. Một dãy phân bố xác suắt P„ (hay một đấy hàm phân 
phối xác suắt 7„ tương ứng) được gọi là hội tụ yêu đến một phân bỗ 
xác suắt P> (hay đến một hàm phân phối xác suắt 7 tương ứng) nếu 
chúng thỏa mãn điều kiện sau: Với mọi điểm liên tục z € I của 7 
(tức là P.„(z) = 0), ta có 

Hi En |1) = đaa L4 (4.16) 


Ti—>CO© 
Chúng ta có thể ký hiệu sự hội tụ yêu như sau: 


P„ —> Đx., Tạ => Tae. (4.17) 


Chữ + phía trên có nghĩa là yêu (weak tiếng Anh). Hội tụ yêu là 
kiểu hội tụ hay dùng nhất cho các thông kê xác suất. Bởi vậy khi ta 
viết lim„ ›¿c P„ = P„ ta sẽ hiểu đó là giới hạn yêu, tức là Đ„ hội tụ 
yêu đến 7... Ví dụ sau cho thấy vì sao, trong định nghĩa trên, ta chỉ 
yêu cầu lim„_,.‹ Z„() = Zse(+) khi z là điểm liên tục của Z„.(z). 
Ví dụ 4.2. Giả sử (c„)„ew là một đãy số thực tiễn tới một số thực 
c khi ø tiễn tới vô cùng. Giả sử thêm rằng c„ > c với mọi ø. Gọi 


P„ (hay P.„) là phân bố xác suất của hằng số c„ (hay c4), tức là 
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4.2. Hội tụ yếu và các kiểu hội tụ khác 


phân bồ xác suất rời rạc tập trung tại điểm c„ (hay c«): P„(e„) = 1 
(hay P.2(c«) = 1). Khi đó ta muốn nói một cách tự nhiên rằng Tụ 
hội tụ đến P.. khi ø tiến tới vô cùng. Tuy nhiên Z„(c+) = P„(|— 
%,e%]) = 0 với mọi ø trong khi Z„(c) = 1, và bởi vậy điều kiện 
lim„-;s.Za(#) = Z(z) không thỏa mãn tại điểm z = c„. (là điểm 
gián đoạn của hàm phân phối xác suất Z7..). Tại các điểm z # c„. thì 
điều kiện này được thỏa mãn. Bỏi vậy, trong ví dụ này, để có được 
sự hội tụ của dãy phân bô (P„)„ew đến P.., ta phải dùng hội tụ yếu, 
như được định nghĩa ỏ trên. 


Z7 ^ HA 7 HÀ N z £ˆ 1LA+ HÀ HÀ Z ^ HA 
Các phân bô xác suât rời rạc có thể hội tụ yêu đên các phân bô 
xác suât liên tục, và ngược lại, các phân bô xác suât liên tục cũng có 


2ˆ LA+ HA Ầ Z ^ HA Z HÀ Nà 
thể hội tụ yêu đên các phân bô xác suât rời rạc. 


Ví dụ 4.3. ï) Với mỗi n c Ñ, gọi P„ là phân bố xác suất đều trên đoạn 
thẳng {0,1/n] (với hàm mật độ bằng ø trên đoạn thẳng đó). Khi ø 
tiễn tới vô cùng, thì 7„ hội tụ yêu đến phân bồ rời rạc 7 tập trung 
tại điểm 0: ..(0) = 1. 


iD Với mỗi ø € Ñ, gọi „ là phân bố xác suất rồi rạc tập trung 


tại ø điểm 1/n,2/n,..., 1 với các xác suất bằng nhau và bằng 1/n: 
P„(1/n) = Pa(2/n) =.... = Pa(1) = 1/n. Khi n tiễn tối vô cùng, thì 


P„ hội tụ yêu đến phân bố đều trên đoạn thẳng |0, 1|. 


Định nghĩa 4.2. Một đấy biến ngẫu nhiên Z„ được gọi là hội tụ theo 
phân phối xác suất đến một biến ngẫu nhiên Z (hay còn gọi là hội tụ 
theo phân phối đến phân bỗ xác suắt của Z), nếu như dãy phân bỗ xác 


suất Dz„ của Z„ hội tụ yêu đền phân bô xác suất Pz. 
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Chúng ta sẽ ký hiệu sự hội tụ theo phân phối như sau: 
VI 2a (4.18) 


hoặc là 
II o3 (4.19) 


Chữ d có nghĩa là distribution, tức là phân phối (hay phân bố) xác 
suất. 

Ví dụ 4.4. Giả sử X„ là biết ngẫu nhiên rời rạc nhận hai giá trị 1/n 
và 1 — 1/n với các xác suất tương ứng P(X„ = 1/n) = (n + 1)/2n và 
P(X„ = 1— 1/n) = (n— 1)/2n. Khi đó X„ hội tụ theo phân phối đến 
biến ngẫu nhiên X với phân bố Bernoulli: P(X = 0) = P(X = 1) 
1/2. 








Vì phân bô normal chuẩn tắc (0, 1) là một phân phân bồ liên 
tục, nên Z„ -“> .V(0, 1) khi và chỉ khi Zz„(b) "È#' ƒ° exp(—z?/2)dz 
với mọi + c IR. Bởi vậy định lý giới hạn trung tâm có thể được phát 


biểu lại như sau: 


Định lý 4.7 (Định lý giới hạn trung tâm). Giả sử Xì, X¿,..., Xạ,... 
là một dãy các biến ngẫu nhiên độc lập có cùng phân bỗ xác suắt 
với kỳ vọng bằng ¡ và độ lệch chuẩn bằng ơ hữu hạn. Gọi Z„ = 


T 

_ 1 ÄŠ¿}— T- ¬. —. 

Ô5=¡ Ä¡) — nụ là tống chuẩn hóa của X\,..., X„. Khi đó 
ơy"n 





Z8 ý (0,1) (4.20) 
khi n tiễn tới vô cùng. 
Bài tập 4.4. Chứng minh rằng một dãy phân bố xác suất normal 


AV(u„. ơ2) hội tụ yêu khi và chỉ khi hai đấy số („) và ơ„ hội tụ. 
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4.2. Hội tụ yếu và các kiểu hội tụ khác 


Bài tập 4.5. Chứng minh rằng một dãy phân bố xác suất 7„ hội tụ 
yêu đến một phân bố xác suất 7. khi và chỉ khi với mọi đoạn thẳng 
mổ ]ø, b[ ta có lim inf P„(]ø, b) > P‹(|a, bỊ). 
m,—>©O 
Bài tập 4.6. Giả sử rằng X„ có phân bố hình học với tham số 1/n. 
Chứng minh rằng 
Xa d 


———>Y 
T 


khi œ tiễn tới vô cùng, trong đó Y có phân bô mũ với tham số 1. 
Bài tập 4.7. Giả sử X\, Xa›.... là một dãy các biến ngẫu nhiên độc 
lập có phân bố đều (0, 1). Đặt 


Y„> = n{(1 — max( 1, Äa,..., Xa)). 


Chứng minh rằng Y„ hội tụ theo phân phối xác suất đến X, trong đó 


X có phân bố mũ với tham số 1. 


4.2.2. Các metric trên không gian các phân bố xác suất 


Về mặt trực giác, khi chúng ta nói rằng phân bố xác suất 7¡ gần 
bằng phân bô xác suất 7; có nghĩa là khoảng cách giữa P¡ và P› nhỏ. 
Nhưng để phát biểu điều đó một cách chính xác, ta cần định nghĩa 
khoảng cách ở đây là gì. Có nhiều cách định nghĩa khác nhau, cho ra 
các kết quả khác nhau, trên không gian các phân bố xác suất. Ở đây 


chúng ta sẽ bàn đến 3 cách trong số các cách định nghĩa. 


Định nghĩa 4.3. Giả sử Px và Dy là hai phân bỗ xác suất trên R, với 
các hàm phân phối xác suắt tương ứng Ƒx và 7y. 
Ù Khoảng cách L¡ (với hạch nhân e"l*l) giữa Px và Py là đại lượng 


dị(Px, Py) = J ` IZx(+) - Zy(z)|e"!*lda. (4.21) 
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¡) Khoảng cách Lévy-Prokhorov giữa Px và Py là đại lượng 


drp(Px, Py) = inf{e > 0| Px(A) < fy(A°)+e và 
Pv(A) < Px(A°)+eV AcB(R)}, (4.22) 


trong đó B(R) là đại số Borel trên IR, và 





A“ =t{zcR| dục A sao cho |z — | < e} (4.23) 


là e—lân cận của A trong ïR. 
ii) Khoảng cách Kolmogorov-Smirnov giữa Px và Py là đại lượng 
đxs(Px, Pv) = sup|#x() — #y(#)|. (4.24) 
zecR 

Nhắc lại rằng, một metric trên một không gian V là một ánh xạ 
d:V x V —› R thỏa mãn các tính chất sau: 
ï) Dương tính: d(u,ø) > 0 với mọi u, € V, và d(u,) = 0 khi và chỉ 
khiúu =öo. 
iD Đôi xứng: d(u,) = d(o,u) với mọi u,ø € V. 
ii) Bất đẳng thức tam giác: d(u,) + d(o,) > d(u,+) với mọi 
u,Ð,t0 € V. 
Một không gian V với một metric d trên đó được gọi là một không 
gian metric, và d(u,) được gọi là khoảng cách giữa u và œ (theo 
metric đ). Một không gian với một metric đ trên đó thì trỏ thành một 
không gian tôpô, trong đó sự hội tụ của một dãy điểm (u„)„cn đến 
một điểm + (theo metric đ) có nghĩa là d(u„, ) tiễn tới 0 khi n 
tiễn tới vô cùng. 

Dễ dàng kiểm tra rằng, cả ba định nghĩa khoảng cách dị, dựp và 


drxs phía trên đều thỏa mãn các tiên đề của một metric, do đó ta có 
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3 metric khác nhau trên không gian các phân bố xác suất trên IR, ứng 
với 3 định nghĩa khoảng cách này. Quan hệ giữa 3 metric dị, drp và 


drs như sau: 


Định lý 4.8. Hai metric dị và dịp tương đương với nhau về tôpô 
(cho cùng một tôpô trên không gian các phân bố xác suắt trên R), 
nghĩa là lim dị(Dạ,Px) = 0 khi và chỉ khi lim drp(Pạ, Px) = 
Tì—>©O© T:+—>©O : 

0. Metric mạnh dxs mạnh hơn hai metric dị và dịụp, nghĩa là nêu 
lim ti Em; uy) = 0thì lim d1 Tn Ebs) = 0tả lim tt, Em; Pha) = 
T†+—>CO© : T,—>C©O© T:+—>©O© 

0, nhưng khăng định ngược lại không đúng. 


Khẳng định d„s mạnh hơn d¡ khá là hiển nhiên: đễ dàng thấy 
rằng 


dị(Đị, Đ›) < ds(Pì,P). | e—Ì*ldy = 2dys(P\, P›) 


—CO 


với hai phân bố xác suất P¡, f› bắt kỳ trên IR. Dãy phân bố xác suất 
trong ví dụ |4.2|cho thấy dxs thực sự mạnh hơn d¡, tức là có thể có 
dì(Pa, Px) tiễn tới 0 trong khi dxs(P„, P„) không tiến tới 0 khi ø 
tiễn tới vô cùng. Sự tương đương tôpô của dị và dr,p là một bài tập 
giải tích thú vị dành cho bạn đọc. Định nghĩa d¡ đơn giản hơn định 
nghĩa d„p. Nhưng lợi thê của drp nằm ở tính tổng quát của nó: nó 
dùng được cho không gian các phân bô xác suất trên một không gian 
metric bắt kỳ. Chú ý thêm rằng, hàm c-“Ì trong định nghĩa metric dị 
được chọn một cách khá tùy tiện. Nếu ta thay hàm đó bằng một hàm 
khác, thoả mãn các tính chất bị chặn liên tục dương có tích phân trên 
IR hữu hạn, thì ta được một định nghĩa metric khác, tương đương về 


mặt tô pô với metric dị). 
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Định lý 4.9. Một đấy các phân bố xác suắt Pạ hội tụ theo metric 
dị (hay là metric dạp) đến một phân bỗ xác suắt P.. (có nghĩa là 
limạ„ ›s đị(Đ¿, P) = 0) khi và chỉ khi P„ hội tụ yếu P>„ khi n tiến tới 
vô cùng. Nói cách khác, sự hội tụ yếu trùng với sự hội tụ theo metric dị 


và trùng với sự hội tụ theo metric Lévy-Prokhorov. 


Chứng minh. 

j)Điều kiện cần. Giả sử có một điểm liên tục zo của Z„. sao cho 
Z„(zo) không hội tụ đến Z7 (+). Khi đó tổn tại một hằng số c > 0 và 
một dãy số tự nhiên ø¿ tiễn tới vô cùng sao cho |Z„„(ø)— Zse(#o)| > 
c với mọi k € Ñ. Ta sẽ giả sử Ƒ„(#o)—.Z„„(o) > c với mọi k. (Trường 
hợp có thể chọn Z„„(#o) — Z+(#o) > c với mọi k hoàn toàn tương 
tự). Do tính liên tục của Z„. tại zọ, tổn tại ổ > 0 đủ nhỏ sao cho 
Z%(#o) — Z+() < e/3 với mọi z € |zo — ở. zo]. Do các hàm phân bố 
xác suất là hàm tịnh tiên tăng, ta có Z„„(%) < Z„„(o) với mọi z 
[#o — ô, zo], từ đó suy ra Z2(%)—.Zn,() > c/2 với mọi z € [#o— ô, #o], 
và do đó tổn tại một hằng số đương Œ = đất ;(6/2)ePldz > 0, sao 
cho đ(P„„, Fs) > Œ với mọi k. Điều đó có nghĩa là d(P„, P.‹) không 
tiễn tới 0 khi ø tiễn tới vô cùng. 

i) Điều kiện đủ. Giả sử Z„.(z) = lim„_,2 Z„(+) tại mọi điểm 
liên tục của Z„.. Giả sử c > 0 là một số đương tùy ý. Nhắc lại rằng 
hàm Z7. là một hàm đơn điệu không giảm bị chặn, và tập các điểm 
không liên tục của Z7. là hữu hạn hoặc đêm được. Ta có thể chọn 
một dãy hữu hạn zo < z¡ <... < zx„ các điểm liên tục của Z„‹ sao 
cho [9 e-l*Ìd>y < c, đi e~l*Ìdz < c, và với mọi k = 0,1,...,MNW— 
1 ta có hoặc là 0 < Zc(#;-+1) — Z#s(#+) < €/(#w — #o) hoặc là 
Ũ < g1 —#, < €/(N. Gọi ï là tập các chỉ số k thỏa mãn 0 < 
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Z%(#pg+1) — #&(#g) < €/(#x — #ọ), và đặt J = {0,...,N—1}\1T. 
Do dãy hàm số Z„ tiễn tới Z„. tại các điểm zọ....,z+„, tồn tại một 
sô tự nhiên sao cho với mọi w > # và mọi ¡ = 0,1,...,N ta có 
IZ¿(%) — Z+(4i)| < e/(#w — xo). Nêu k e T thì từ các bất đẳng thức 
này cùng với bắt đẳng thức 0 < Zc(#+1) — Z+(#y) < €/(#w — #0) 
và sự đơn điệu không giảm của Z„ và Z„ suy ra bất đẳng thức sau: 


|Z„(#) — #()| < 2</(#Nw — #o) V+ € [#z, +1] 
(với mọi k € 7). Ta chia d(P„, Px), với mọi ø > 7ƒ, thành 3 phần: 
d(P,Px) = [T Zi(G)— Z4,(0)|e Pldz = Au + Bạ +.C, 
VỚI 


#0 
An= Ƒ— [Za(œ) — Zz(œ)|e-ldz+ 


TỀKI |Za(2) — Zs(z)|e~l*ldz < 2e, 
B„= (z) — #2e(œ)|e"fÌdz < 
xi v 








%;+1 #N 
k3 cớ TC . #< #0 #N— ““ndz = 


Œ=3 Ƒứ Z„(&)|e-Pldz < 


k€J 
S Ð rey(®k+i — #y) S N maxkcj(#k+q — #k) <NÑ =€. 


Tổng cộng lại, ta có d(Pạ, P„) < 5c, với mọi n đủ lớn. Vì c là tùy ý, 
Tiển: HH s2; Eaj)= Ú: 
T,+—>©O© 














Bài tập 4.8. Chứng minh sự tương đương về tôpô của metric dị và 


metric đr,p. 
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Chương 4. Các định lý giói hạn 
4.2.3. Định lý tiền compact của Prokhorov 


Định nghĩa 4.4. Một đấy các phân bó xác suắt (P„)„ew được gọi là 
chặt (0ight) nếu như với mọi e > 0 tôn tại H. € IR; sao cho 


Pa([—R,,R¿]) >1—cVneN. (4.25) 


Nói một cách nôm na, điều kiện chặt là điều kiện “xác suât không 
bị dàn trải về vô cùng” khi ø tiễn tới vô cùng. 
Định lý 4.10 (Prokhorov). Giả sử (P„)„en là một dãy phân bỗ xác 
suắt trên IR thỏa mãn điều kiện chặt. Khi đó tôn tại một đấy con 
(Đ¿„)neN (kn —> oo khi n —> co) hội tụ yếu đến một phân bỗ xác 


suất nào đó. 


Tính chất “mọi dãy điểm (của một tập nào đó) đều có một dãy 
con hội tụ” gọi là tính chất tiển compact (pre-compact). Bởi vậy định 
lý trên của Prokhorov được gọi là định lý tiền compact. 

Sơ lược chứng minh. Lẫy một tập trù mật đêm được trên R (ví 
dụ như tập hợp Q các số hữu tỷ), và đánh số thứ tự các số trong tập 
đó thành một dãy số (a„)„„cn. Có thể xây dựng bằng qui nạp theo mm 
một đãy con (?;,,)„eụ của dãy phân bồ xác suất (P;)„eq thỏa mãn 
tính chất sau: đấy sô Z;„(a„„) hội tụ với mọi mm e Ñ, trong đó Z¿,„ là 
các hàm phân phối xác suất tương ứng. Xây dựng hàm Z7. như sau: 
ĐT (Ga Tmseo 21 (0m)s Về đe) = TnÊ{O (0m )J|đn >>} với 
mọi z c R. Dễ thấy hàm Z7. thỏa mãn các tính chất đơn điệu không 
giảm và liên tục bên phải. Tính chất chặt của dãy (P;„)„ew đảm bảo 
rằng Z..(z) tiên tới 0 khi z tiễn tới —oo và tiên tới 1 khi z tiễn tới 


+œ. Bởi vậy nó là hàm phân phôi của một phân bô xác suât P.. nào 
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đó. Bước cuối cùng là kiểm tra rằng ;,„ hội tụ yêu tới P.. (Bài tập: 











Làm chỉ tiết các bước chứng minh). 





Ghỉ chú 4.3. Định lý Prokhorov và metric Lévy-Prokhorov là gọi theo 
tên của Yuri Vasilevich Prokhorov (sinh năm 1929), một nhà toán học 
Nga Xô Viết chuyên về xác suất, học trò của Kolmogoroy, viện sĩ viện 
hàn lâm khoa học Liên Xô từ năm 1972 (nay là viện hàn lâm khoa 
học Nga). 


4.2.4. Định lý liên tục 


Định lý 4.11 (Định lý liên tục). Giả sử có một phân bỗ xác suắt P„. 
và một dãy phân bô xác suắt P„ trên I. Khi đó ba điều kiện sau đây 
tương đương với nhau: 

1) Dãy phân bó xác suắt P„ hội tụ yếu đến P. khi n tiến đến vô cùng. 


2) Với mọi hàm liên tục và bị chặn F' trên ] ta có 


làm. Fưn = J dt. (4.26) 
R R 


T+>CO© 


3) Gọi ®„ và ®.. là các hàm đặc trưng tương ứng của Dạ và P... Khi 


đó với mọi s € ta có 


lim ®„(s) = ®¿c(s). (4.27) 


7,—>CO© 


Chứng minh. Điều kiện 1) suy ra điều kiện 2): Giả sử điều kiện 





1) được thỏa mãn, và giả sử Ƒ' là một hàm liên tục bị chặn: tỐn tại 
một sô thực đương A sao cho |F(+)| < M với mọi + e 8. Gọi e > 0 
là một số dương bắt kỳ. Chúng ta sẽ chứng minh rằng 





| ran, — lI PAP,À <€ (4.28) 
R R 
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với mọi n đủ lớn. Tổn tại # e IR, sao cho —ïR và ñ là hai điểm liên 


tục của 7., và 


7+(—R) < c/6M, Z„(R) >1— c/6M. (4.29) 


Khi đó, với mọi + đủ lón, ta cũng có Z„(—R) < c/6M và Z„(R) > 
1 — c/6M. Vì giá trị tuyệt đôi của Ƒ bị chặn bởi A7, nên từ đó ta có 


<c/6, < c/6, (4.30) 











| | rư |. namx 
]-œ,—R ]R.+oo[ 


và 


</6, <c/6 (4.31) 











J dụ / dụ 
]—œ,—F] ]R,+oo[ 


với mọi đủ lớn. Như vậy, để chứng minh bắt đẳng thức ta chỉ 


cân chứng minh răng 


<c/3 (4.32) 





lI da — j tdRs 
J|—R.Rị ]|—R.RỊ 


với mọi ø› đủ lớn. Vì hàm Ƒ' liên tục, nên nó liên tục đều trên đoạn 
3 . ^ Ầ 6 ^ ~ HA 
thắng [—, F]. Bởi vậy tôn tại một dãy sô ao = —Ï < øi <...< 
Z HA Ầ ` z .a? .ÐA ` ^ 
awy = ïR, sao cho các sô a; đều là các điểm liên tục của 7... và trên 


mỗi đoạn thẳng [a;_¡, a;j độ dao động của Ƒ nhỏ hơn c/6 : |Ƒ(+) — 


198 


4.2. Hội tụ yếu và các kiểu hội tụ khác 


F(a¡)| < c/9 với mọi z € [a;_1, a;|. Từ đó suy ra 


N 
II HdP„ = ` F(a¡)(7z() — 1 )ỨU 1) } 


¿=1 


= ii (E'— F(a,))4P; 
]d¿— _. 
|EF'— F(œ)|dP, 3) (c/9)dP, 


]a¿— 1;8¿] 











— (/9) | 1đP,<</9 (4.33) 
]—R.Rị 


với mọi n, và một bất đẳng thức như vậy cho P... Chú ý rằng các 
điểm a; là các điểm liên tục của Z„., do đó (02) tiễn tới œ0) khi 
n tiên tới vô cùng với mọi ¡ = 1,..., N. Bỏi vậy với mọi w đủ lón ta 


Có 


N N 
3) Ƒ(0i)(Tn(0i) — Za(0—1)) — 32 F(0i)(7<(0) = #%(0—t))| < é/9. 
¿=1 i=I 


(4.34) 
Kết hợp các bất đẳng thức trên lại với nhau, ta được điều phải chứng 





minh . 


Điều kiện 2) suy ra điều kiện 3): Điều kiện 3) chẳng qua là trường 





hợp riêng của điều kiện 2) cho các hàm số F„(z) = exp(—Tsz), bởi 
vì, theo định nghĩa, 


®x(s) = E(exp(V-1sX)) = | ep(V=Ts)dPx (4.35) 














với mọi phân bô xác suất ?x (với một biến ngẫu nhiên X tương ứng). 


Điều kiện 3) suy ra điều kiện 1): (Sơ lược chứng minh). Giả sử 





lim ;s ®„(s) = ®¿c(s) với mọi s € R. Nhắc lại rằng các hàm đặc 
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trưng của các phân bồ xác suất là bị chặn bởi 1: |ð„(s)| < 1 với mọi 


sR. Bỏi vậy, theo định lý hội tụ bị chặn Lebesgue, ta có 


lim #(5)ds = | ®.c(s)ds (4.36) 


với mọi e > 0. Mặt khác, ta có bắt đẳng thức sau: 


Bổ đề 4.12. Với mọi biến ngẫu nhiên X, và mọi số c > 0 ta có: 


: lI ®x(s)ds 


Chú ý rằng về phải của bất đẳng thức (4.37) tiễn tới 1 khi c tiễn 
tới 0. Từ bắt đẳng thức này và công thức giới hạn (4.36) dễ dàng suy 


ra rằng dãy phân bô xác suất (7„) thỏa mãn điều kiện chặt. Bởi vậy, 


Px(—Š.Ì) > 


— 1. (4.37) 








theo định lý tiền compact của Prokhoroy, tồn tại một dãy con P,,„ hội 
tụ yêu đến một phân bố xác suất P nào đó. Như đã chứng minh ỏ 
trên, khi f„„ hội tụ đến P, thì ®;„ cũng hội tụ đến hàm đặc trưng 
của P tại mọi điểm. Thế nhưng ®„ hội tụ đến ®..., bởi vậy hàm đặt 
trưng của P chính là ®... Vì mọi phân bô xác suất được xác định duy 
nhất bằng hàm đặc trưng của nó, nên P chính là P... Có nghĩa là có 
một dãy con của („) hội tụ yêu đến 7. Nhưng khi đó, toàn bộ dãy 
(P„) phải hội tụ yêu đến P., vì nêu không, tương tự như trên, sử 
dụng định lý Prokhorov, ta sẽ tìm được một dãy con của (P„) hội tụ 


yêu đến một phân bố xác suất P khác 7, nhưng Ê lại có hàm đặc 











trưng trùng với hàm đặc trưng của 7, là điều không thể xảy ra. 





Ghi chú 4.4. Định lý phía trên được gọi là định lý liên tục, vì nó khẳng 
định rằng ánh xạ từ các hàm đặc trưng vào các phân bố xác suất 


tương ứng là một ánh xạ liên tục. Nó là một phần của định lý liên 
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tục của Paul Pièrre Lévy (1886-1971), một nhà toán học người Pháp. 
Lévy là người đưa ra nhiều khái niệm quan trọng trong lý thuyết xác 
suất, trong đó có khái niệm martingale. Định lý liên tục của Lévy phát 


biểu như sau: 


Định lý 4.13 (Lévy). Giả sử các hàm đặc trưng ®x,„ của các biến ngẫu 
nhiên X„ (n e Ñ) tiến tới một hàm ® tại mọi điểm trên IR (hội tụ theo 
từng điểm). Khi đó các khẳng định sau đây là tương đương: 

Ù X„ hội tụ theo phân phối xác suắt đến một biến ngẫu nhiên X nào 
đó. 

i) Dãy các phân bồ xác suắt (Px,„)„ew thỏa mãn điều kiện chặt. 

ii) ® là hàm đặc trưng của một biến ngẫu nhiê X nào đó. 

iv) ® là một hàm liên tục trên ïR. 


v) Hàm %(s) liên tục tại điểm s = 0. 


Bài tập 4.9. (Chứng minh bổ để 4.12). Chứng minh đẳng thức sau 


xJ ®x(s)ds = | SN) HỢU, 
2c J., sen. C8 
sin(ez) sin(ez) 
= nh ŠV”)4Px (4.38) 
[g|<5/4  '€E |e|>2/c  €# 


với mọi biên ngẫu nhiên X. (Gợi ý: dùng định nghĩa của hàm đặc 
trưng, và công thức thay đổi thứ tự tính tính phân Fubini). Sau đó áp 
dụng các bắt đẳng thứ | sin(z)/| < 1 với mọi ¿ e IR và | sin(?)/£| < 1/2 
với mọi |í| > 2, ¿ c IR vào đẳng thức trên, để suy ra bất đẳng thức 
4.37). 
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4.2.5 Các kiểu hội tụ khác của dãy biến ngẫu nhiên 


Ngoài hội tụ theo phân phôi (là kiểu hội tụ trong định lý giới hạn 
trung tâm), chúng ta đã gặp những kiểu hội tụ sau đây: hội tụ theo 
xác suắt (là kiểu hội tụ trong dạng yếu của luật số lớn), và hội tụ hầu 


như chắc chắn (là kiểu hội tụ trong dạng mạnh của luật số lớn) 


Định nghĩa 4.5. Một dấy biến ngẫu nhiên X„ được gọi là hội tụ theo 


xác suất đến một biến ngẫu nhiên X nếu như với mọi e > 0 ta có 
lim P(JX„— X|>e)=0: (4.39) 
T,—>œ© 


Định nghĩa 4.6. Một dãy biến ngẫu nhiên X„ được gọi là hội tụ hầu 


như chắc chắn đến một biến ngẫu nhiên X nếu như 
P({o e O| jm 3ản(0) = Ä 0)}) =1, (4.40) 


trong đó © ký hiệu không gian xác suất chung của các biến ngẫu nhiên 
X„ và X, và œ ký hiệu các phẩn tử của ©, túc là các sự kiện thành 


phẩn. 


Sự hội tụ hầu như chắc chắn còn được gọi là sự hội tụ hầu khắp 
mọi nơi. 

Ngoài ra, có một loại hội tụ khác hay được dùng đến, là hội tụ 
theo chuẩn 7„. ( > 1 không nhất thiết phải là số nguyên; trường hợp 
hay dùng nhất là k = 2): 











Định nghĩa 4.7. Đại lượng (E(|[X|*))1⁄* được gọi là chuẩn L„ của 





một biến ngẫu nhiên X. Một dãy biến ngẫu nhiên X„ được gọi là hội 
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tụ theo chuẩn L„ (hay còn gọi là hội tụ theo trung bình cấp k) đến 


một biên ngẫu nhiên X nêu như 





lim E([X„— X|Ẻ) =0. (4.41) 


T+—>C©O© 











Định lý 4.14 (Quan hệ giữa các kiểu hội tụ). Ù Nếu kị > ka > 1, thì 
sự hội tụ theo chuẩn Ly, mạnh hơn sự hội tụ theo chuẩn Lụ„. Có nghĩa 
là, nếu X„ hội tụ theo chuẩn Lự, thì nó cũng hội tụ theo chuẩn Lạ,,. 
(Điều ngược lại nói chung không đúng). 

iÙ Với mọi k > 1, sự hội tụ theo chuẩn Lạ, mạn hơn sự hội tụ theo xác 
suắt. 

ii Sự hội tụ hầu như chắc chắn mạnh hơn sự hội tụ theo xác suắt. 


iv) Sự hội tụ theo xác suắt mạnh hơn sự hội tụ theo phân phối. 


Ghi chú 4.5. Sự hội tụ theo chuẩn „ không suy ra sự hội tụ hầu 
như chắc chắn, và ngược lại sự hội tụ hầu như chắc chắn cũng không 


mạnh hơn sự hội tụ theo chuẩn 7„.. 


4.3 Phân bô xŸ và định lý Pearson 
Phân bô ki bình phương (x2, chỉ-square) với tham số r € Ñ là 
phân bố xác suất của biên ngẫu nhiên x2 định nghĩa như sau: 
PC? 2itpnrTTY 72 (4.42) 


trong đó Z¡,..., Z„ là một bộ rz biến ngẫu nhiên độc lập tuân theo 
phân bố normal chuẩn tắc (0, 1). Tham sô z ở đây được gọi là số 
bậc tự do. Chẳng hạn khi r = 3 thì người ta nói là có 3 bậc tự do (3 


degrees of freedom). 
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Phân bố x2 hay xuất hiện trong những bài toán thông kê, mà 
chúng ta sẽ xét đên ở chương sau. Nó liên quan đến việc ước lượng 
phương sai của một phân bô xác suất normal. Đồng thời, nó đóng vai 
trò rất quan trọng trong việc kiểm định các giả thuyết về dáng điệu 
các phân bố xác suất, qua cái gọi là kiểm định x2 (chi-square test). 


Cơ sở của kiểm định x2 là định lý giới hạn sau đây của Karl Pearson: 


Định lý 4.15 (Pearson). Giả sử X là một biến ngẫu nhiên nhận hữu 
hạn các giá trị z\....,z„ với các xác suắt Px(+¡) = pị > Ù tương ứng 
Œ.3_-1m¡ = 1Ù. Giả sử Xì, Xa,..., X„,... là một dãy các biến ngẫu 
nhiên độc lập và có cùng phân phối xác suắt với X. Với mỗi n, gọi 
1 —= 1; là biến ngẫu nhiên sau: 1⁄; là số lần xuắt hiện giá trị z¡ trong 
DU A04 ng bàn r0 = W}. Khi,dO 


lc c0 =xf0nn c3 
Vi ung, (4.43) 


=Ị,. /E) 
⁄ ~ Š (1⁄4 "¬ np¡)2 ⁄ ⁄ 

tức là biên ngẫu nhiên » ————— hội tụ theo phân phôi đền x2_ \, 
nÐ;¡ 
¿=1 

khi n tiên tới vô cùng. 

Ghi chú 4.6. Trong trường hợp s = 2, và để cho tiện giả sử zị = l1, 

za = 0 (các giá trị của z¡ không quan trọng, chỉ có xác suất của 


chúng là quan trọng trong định lý Pearson), ta có: X tuân theo phân 














bố Bernoulli với tham số p = øị = E(X), 1— p = ø,  = 3. go 


2 — Tì — 1Ị, Và 


(¡ — npị)? ¡ (2 T— np›)” = (1= np)” (j8 np)” 




















n1 D2 pn (1— p)n 
_ Œì= ng _ (2H  ï 
p{ ~ p}n vnø(3) 
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3 ii Xi — nE(X) 
vnø(Ä) 

đó Z¡ có phân bô normal chuẩn tắc 4(0, 1)), và do đó 
SP- Xi — nE(X)” Cá, 
vnø(X) : 


Nói cách khác, định lý Pearson trong trường hợp k = 2 là hệ quả trực 

















Theo định lý giới hạn trung tâm thì lề Tới (trong 

















tiếp của định lý giới hạn trung tâm. Trong trường hợp š > 2, định lý 
Pearson có thể coi như một mở rộng của định lý giới hạn trung tâm. 


(2 — n¡) 


Vm(1— pị)m. 


Ta cần tìm giới hạn theo phân phôi xác suất của 332 ¡(1 — p)F? 


+2 


Sơ lược chứng minh định lý Pearson. Đặt Ƒ; = 


: ;Á SA CÀ Ề 7 sa ^ z d 
khi ø tiên tới vô cùng. Theo định lý giới hạn trung tâm, ta có F; ——> 


4V(0, 1) với mọi ¿ = 1,..., s khi n tiên tới vô cùng. Tuy nhiên, các biến 
,..., F; có phụ thuộc vào nhau: >”j_¡ v⁄ø(1— ø;)#¿ = 0. Bằng 





ĐiĐj 
(— ø)(— Øj) 





cách tính trực tiếp, ta có: cou(Fj, h))= với mọi 
j SE: 

Một điểm đáng chú ý là, cũng theo định lý giới hạn trung tâm, 
với mọi cị,...,c; C lR, >)j_¡ c¡F; cũng hội tụ theo phân phối đến 
một phân bố normal. Từ đó suy ra vector ngẫu nhiên (Ƒ\...., F„) hội 
tụ theo phân phối đến một vector ngẫu nhiên (G¡,..., Œ,) với phân 
bố normal nhiều chiều ,V(0, Ð), trong đó ma trận hiệp phương sai > 
được xác định như sau: 





Đụ = 0ar(G¡) = Lvà Sị = cou(G¡, G7) = —VJppj/(( = p)( = 9): 
(4.44) 
với mọi ¡, j. Điều còn lại cần phải chứng minh là Šˆ_.(1 — p;)G? có 


cùng phân bô xác suât với x2. ¡. 
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Ma trận hiệp phương sai » suy biến (bởi vì S371 VĐ¿(1T— pị)G; = 
0), có hạng (rank) bằng s — 1, do đó (về mặt phân phối xác suất) ta 


có thể nhận được vector ngẫu nhiên (G;...., Œ,) từ một vector ngẫu 
nhiên (Z¡,..., Z¿_¡) có phân bố normal chuẩn tắc (s — 1) chiều, qua 


một phép biến đổi tuyên tính: 


(07077390 VÔ) PHIANG 1U (6y (4.45) 


Theo định I/|3.23| ta cần chọn ma trận 4 sao cho 4.4! = 5. Ma trận 
A=(a}E Tin: =$—! só thể được chọn như sau. Gọi Ó = (o¡;)JE cn, - là 
một ma trận ?ưiôñ& góc (orthogonal, có nghĩa là Ó.Óf = I,) bất kỳ 
thỏa mãn điều kiện: o,; = VØ¡ với mọi ¡ = 1,..., s, tức là cột cuỗi 
cùng của O được cho bởi các số V?¡. Ma trận vuông góc Ó như vậy 
tồn tại bởi vì ÿ5°_ i©ö/m) £ 8t 


“Ở _ với mọi ¿=1,...,s,j=1,...,s—1. (446) 


— 
T vi=p 


Dễ dàng kiểm tra rằng ma trận 4 định nghĩa như trên thỏa mãn 


điều kiện A.Af = », và như vậy ta có thể coi rằng (G\,...,G,) = 
(a;)jE LÊN” =5} (21,...,,_1)?. Nói cách khác, ta có 
s—l O¡j 
G¡= —. với mọi ? = l,..., s, (4.47) 
` v1i—Ø¡ ` 
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từ đó suy ra: 


2 
8 8 


»ú — øị)G7 = 4 — Đị) Si nợ” 


;=l 


8 
“SẼ Gƒ, 2? 2 + .oj0iy2; 2: 


¡=1 3k 
s1 s8 
ø)Z2?+ ( SN )Z/Z2: =S2 (4.48) 
7=I1 2 37k ?=l 





và ta được điều phải chứng minh. 











Do tầm qua trọng của phân bố x2 trong thông kê, nên nó được 
nghiên cứu rất kỹ, và có thể tính hàm phân phối của nó bằng máy 


tính hoặc tra bảng. Hàm mật độ của phân bố x2 là hàm sau: 


Định lý 4.16. Phân bố x2 với r bậc tự đo (r > 0) có hàm mật độ là: 


] BC) : 
=. È khi z > 0 
p(z)= $ 22T(r/2) : (4.49) 
0 khi + < 0 
trong đó T` là hàm gamma: L'(a =“Ín jỹ- đó” đẺ: 


Ghi chú 4.7. Karl Pearson (1857-1936), người Anh, được coi là một 
trong những cha tổ của ngành thông kê toán học. Năm 33 tuổi, sau 
khi đọc sách Natural Inheritance của Francis Galton, Pearson bắt đầu 
quan tâm đến các phương pháp thông kê, để áp dụng chúng vào việc 
kiểm nghiệm học thuyết sàng lọc tự nhiên của Darwin, trong khuôn 
khổ của học thuyết eugenics (ưu sinh học) đang thịnh hành thời đó, 


mà Pearson là một trong những người đi theo. Pearson là người lập 
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1.0 


0.8 


0.6 


0.4 





Hình 4.3: Hàm mật độ của x¿, với k = 1,2, 3, 4, 5 


ra khoa thông kê đầu tiên, năm 1911, tại University College London. 
Nhiều khái niệm cơ bản trong xác suất thống kê là dựa trên những 
công trình của Pearson, trong đó có: hệ sô tương quan, hồi qui tuyên 
tính, phân loại các phân bố xác suất, kiểm định ki bình phương. 

Bài tập 4.10. Làm chỉ tiết các bước trong chứng minh của định lý 
Pearsonl4.15 
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Hình 4.4: Karl Pearson 


209 


Chương 5 
Thông kê toán học 


5.1 Các vẫn đề thống kê 


Thông kế toán học có thể coi là tổng thể các phương pháp toán 
học, dựa trên lý thuyết xác suất và các công cụ khác, nhằm đưa ra 
được những thông tin mới, kết luận mới, có giá trị, từ những bảng số 
liệu thô ban đầu, và nhằm giải quyết những vấn để nào đó nảy sinh 
từ thực tê. Có thể kể tên một sô mục đích chính của thông kê như 
sau: 

- Mổ tả số liệu. 

- Ước lượng và dự đoán các đại lượng. 

- Tìm ra các mối quan hệ giữa các đại lượng . 
- Kiểm định các giả thuyết. 

Thông kê học là một ngành lón, với nhiều phương pháp khác 
nhau để dùng cho các tình huống khác nhau (có người ví các phương 
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5.1. Các vấn đê thông kê 


pháp thông kê như là các cách nâu ăn, rất đa dạng phong phú), và 
có nhiều điểm cần chú ý để khỏi dẫn đến các kết luận thông kê sai 
lệch (hoặc là bị mắc lừa bởi những người cô tình làm thống kê theo 
các phương pháp sai lệch). Trong chương này chúng ta sẽ chỉ bàn tới 
một sô vân đề và phương pháp thống kê toán học cơ bản nhất. Trước 
khi đi vào lý thuyết, ở phần này chúng ta sẽ điểm qua các mục đích 


chính trên của thông kê, qua một sô ví dụ. 








Internet cafe 
&VWri 
Hotspots, 19% 


Tại nhà, 55% 


Điện thoại di 
động, 1% 


Tại nhà của 
bạn bè, 2% 


Công sở,20% Trưởng/thư 
viện công 
cộng, 2% 


Hình 5.1: Tỷ lệ thời gian dùng internet ở Việt Nam năm 2009 


Ví dụ 5.1. (Biểu đô thông kê). Trong thông kê mô tả, ngoài các bảng 
số liệu (cùng với một sô đại lượng đặc trưng tiêu biểu nhất như trung 


vị, kỳ vọng, phương sai), các biểu đồ cũng hay được dùng, để giúp 
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người đọc nắm bắt thông tin về số liệu một cách nhanh chóng. Một số 
loại biểu đỗ hay gặp là: biểu đỗ tần số, đồ thị phát tán, biểu đồ hình 
quạt (pie chart), v.v. Hình là một ví dụ về biểu đỗ hình quạt, 
phản ảnh tỷ lệ thời gian dùng internet ở Việt Nam vào năm 2009 
(theo báo Lao Động). So với các bảng số liệu, các biểu đồ có thể có 
nhược điểm là cho thông tin không được chính xác bằng (độ sai số 
cao hơn), nhưng có ưu điểm là cho được cùng một lúc nhiều thông 
tin trên một hình ảnh, dễ tiếp thu đối với não người hơn là một bảng 


các con sỐ. 


40 


30 
20 


10 





May Sepfember 


Hình 5.2: Số ếch trong hồ vào tháng 5 và tháng 9 


Tất nhiên, có những biểu đổ có thể phản ánh rất sai lệch về các 
đại lượng. Hình|5.2|là một ví dụ đơn giản về đề tài nói đối bằng thống 
kê. Đỗ thị đó xuất phát từ số liệu thông kê số ếch trong 1 cái hồ: hơn 
10 con vào tháng 5, và nhiều gấp 3 lần như vậy vào tháng 9. Nhưng 


nhìn vào đồ thị người ta sẽ có cảm giác là sô ếch vào tháng 9 gấp 
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3 x 3 =9 lần tháng 5. 


Ví dụ 5.2. (Phát xít Đúc sản xuắt bao nhiêu máy bay và xe cơ giới?). 
Trong chiến tranh, việc ước lượng được đúng sức mạnh của quân địch 
là một việc nhiều khi có tính chất sông còn. Trong chiến tranh thê giới 
lần thứ II, các cơ quan tình báo quân đồng minh Anh-Mỹ đã cung cấp 
nhiều thông tin rất sai lệch về lực lượng quân Đức. Thế nhưng, bằng 
phương pháp thống kê (thu nhặt các mã số trên các xác máy bay, lốp 
xe, v.v. của quân Đức bị bắn cháy, bỏ rơi, rồi từ đó giải mã và dùng 
các hàm ước lượng để ước lượng), nhà thống kê học Richard Ruggles 
cùng với các cộng sự của mình, lúc đó làm tại Cục tình báo kinh tế 
của Anh, đã ước lượng được rất chính xác số máy bay và xe cơ giới 
mà Đức sản xuất được hàng tháng|1| 





Công suất hàng tháng của Phát xít Đức | Máy bay | Xe cơ giới 
Ước lượng của Rugsles 28500 147000 
Số liệu thực theo tài liệu của Đức 26400 | 159000 




















Trong khi đó, ước lượng của các tình báo viên Anh-Mỹ là công 


suất của Đức khoảng 1 triệu xe cơ giới một tháng! 


Ví dụ 5.3. (Thân được chống béo phì?). Tỷ lệ số người bị béo phì 
(obesity) tăng rất nhanh trên thế giới (kể cả ở Việt Nam, châu Âu, 
và Mỹ) trong những thập kỷ cuối thể kỷ 20 - đầu thế kỷ 21, và trỏ 


thành một vân đề xã hội lớn, vì béo phì hay dẫn đến nhiều căn bệnh 





(Theo sách [1], dựa trên: Rugsles, R. and H. Brodie, “An Empirical Approach 
to Economic Intelligence in World War H”, Journal of the American Statistical As- 
sociation, 42, March 1947; và theo: James Tobin, “In memoriam: Richard Ruggles 
(1916-2001)” Review of Income and Wealth Series 47, Number 3, September 2001 


213 


Chương 5. Thống kê toán học 


khác (tim mạch, tiểu đường, đột qui, vô sinh, v.v.), và có thể làm giảm 
đáng kể tuổi thọ của người. Chống béo phì là một vẫn để nóng hổi, 
nhưng cho đến năm 2009 chưa có thuốc nào thật hiệu quả được bán 
trên thị trường. Điều này có thể thay đổi trong những năm sau đó, 
vì trong năm 2009 có 3 hãng dược phẩm công bô các kết quả thử 
nghiệm lâm sàng giai đoạn III (phase II clinical trial) cho các loại 
thuốc chồng béo phì mới có nhiều triển vọng. Trong đó đáng chú ý 
nhất có lẽ là thuốc Qnexa của hãng Vivus. Công bô kết quả về Qnexa 
của Vivus vào ngày 09/09/ 20032] có một bảng thống kê sau (trong 


sô nhiều bảng thống kê): 


TTT-LDCF Completers 
qnexa qnexa qnexa qnexa 
EQUIP (0B-302) Placebo Low Dose Full Dose Placebo Low Dose Full Dose 
56 Weeks (n=498)  (n=234) (n=498) (n=241) (n=138) (n=301) 
Mean Weight 
Loss (1%) 1.6% 5.1⁄% 11.0%% 2.5% 7.0%% 14.7%*% 
Greater than 
or equal to 
5% weight 
loss rate 17% 451% 67% 265 595% 8417 


TTT-LDCF: Intent-to-treat with last observation carried forward 


*p<0.0001 vs. placebo 


Theo bảng trên, tổng số người tham gia thử nghiệm lâm sàng (trong 
thử nghiệm đó) là 498 + 234 + 498 = 1300 người. Đợt thử nghiệm kéo 
dài 56 tuần, nhưng có những người bỏ đở giữa chừng: trong số 498 
người được nhận placebo (trông giỗng như viên thuốc thật, nhưng 





®Nguỗn: http://ir.vivus.com/releasedetail.cfm?ReleaselD=407933 
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không có thuốc trong đó) thì chỉ có 241 người theo đến cùng cuộc 
thử nghiệm, còn trong sô 498 người được nhận liều đầy đủ của thuốc, 
có 301 người (61%) theo đến cùng. Trong số những người được nhận 
đủ liều và theo đến cùng, thì có 84% số người giảm được ít nhất 5% 
trọng lượng, và trung bình mỗi người giảm được 14,7% trọng lượng. 

Trong bảng trên có viết p < 0,0001 vs. placebo. Điều đó có nghĩa 
là, với độ tin cậy bằng 1 — ø > 99,99% (hay nói cách khác, với khả 
năng kết luận sai lầm nhỏ hơn 0,01%), các con số thống kê cho thấy 
kết quả đạt được (ở đây là giảm cân) tốt hơn khi có thuốc so với khi 
không có thuốc. Thông thường, khi p < 0,01 thì người ta châp nhận 
giả thuyết là thuốc có hiệu ứng thực sự, còn nêu p > 0,05 thì hiệu 
ứng đó không rõ ràng, có thể là do ngẫu nhiên. 

Các hãng dược phẩm trên thê giới, trước khi được quyền bán một 
loại thuốc mới nào đó, thông thường đều phải qua thử nghiệm lâm 
sàng diện rộng (trên ít nhất mấy trăm bệnh nhân), và các kết quả 
thống kê phải chứng tỏ rõ ràng công dụng và sự an toàn của thuốc, 
tức là phải qua được kiểm định thống kê cho giả thuyết “thuốc có 
công dụng và an toàn”, với độ tin cậy cao. 

Ví dụ 5.4. (London nguy hiểm hay an toàn1). Ngày 10/07/2008, có 
4 vụ giết người bằng dao ở 4 nơi khác nhau ở London. Sự kiện này 
làm náo loạn dư luận đến mức thủ tướng Anh là Gordon Brown phải 
tuyên bố hứa sẽ tìm cách làm giảm các vụ đâm dao. London có trở 
nên nguy hiểm cho tính mạng hơn những năm trước không? Để trả 
lời câu hỏi đó, chúng ta có thể dựa trên một số số liệu thông kê sau: 


- Trong 5 năm trước đó, mỗi năm ở London có khoảng 170 người bị 





Dựa theo tạp chí Significance của Royal Statistical Society, sỐ tháng 3/2009 
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giết, và con số này khá ổn định hàng năm. 

- Khoảng 41% các vụ giết người là dùng dao, 17% là dùng súng, 9% 
là đánh đập (không vũ khí), 5% là đánh bằng vật không phải dao, 
3% là bóp cổ, 3% là dùng thuốc độc, v.v., và 17% là không xác định 
được phương pháp. 

- Trong thời gian 3 năm 04/2004 - 03/2007, có 713 ngày không có 
vụ án mạng nào, 299 ngày có 1 vụ, 66 ngày có 2 vụ, 16 ngày có 3 vụ, 
1 ngày có 4 vụ, và không có ngày nào có từ 5 vụ trỏ lên. 

Từ các sô liệu thông kê, người ta tính được một số ước lượng sau 
về sô vụ án mạng ở London: 

- Số vụ án mạng xảy ra trong ngày tuân theo phân bố Poisson với kỳ 
vọng là 0,44 (tức là trung bình mỗi ngày có 0,44 vụ) . 

- Kỳ vọng là mỗi năm có khoảng 3-4 ngày với 3 vụ án mạng, cứ 
khoảng gần 3 năm thì có 1 ngày với 4 vụ án mạng, và khoảng 30 
năm thì mới có một ngày với 5 vụ án mạng. 

Việc xảy ra 1 ngày vào năm 2008 với 4 vụ án mạng không nằm 
ngoài các con sô ước lượng trên. Đâm bằng dao là phương pháp gây 
án mạng phổ biên nhất (41% tổng số các vụ). Khi có 4 vụ án mạng, 
thì xác suất để cả 4 vụ đều do đâm dao là (0,41) = 2,8%, một con 
sô khá nhỏ, nhưng cũng không nhỏ đến mức “không thể xảy ra”. Khi 
có 4 vụ án mạng xảy ra cùng ngày, thì có rất nhiều tổ hợp các khả 
năng xảy ra về phương pháp gây án mạng trong 4 vụ đó (ví dụ 2 vụ 
dùng dao, 1 vụ dùng súng, 1 vụ thắt cổ), và tất cả các tổ hợp đó đều 
có xác suất nhỏ, tổ hợp với xác suất lớn nhất cũng không vượt quá 
6%. Từ đó, có thể kết luận là, việc hôm 10/07/2008 xảy ra 4 án mạng 


ỏ London, và cả 4 đều băng đâm dao, hoàn toàn nắm trong các ước 
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lượng về án mạng xảy ra ở London, và không hề chứng tỏ xu thê gì 
mới. Tổng kết năm 2008, ở London có 152 án mạng xảy ra năm đó. 
Phương tiện truyền thông được dịp vui mừng vì “đã lâu rồi chưa năm 
nào London được an toàn như vậy”. Nhưng con số đó có chứng tỏ xu 
thế gì không, hay chẳng qua cũng chỉ là một sự ngẫu nhiên không 


năm ngoài qui luật chung? 


¬¬ 


=` 





Hình 5.3: Các đường vân trong màng mắt 


Ví dụ 5.5. (Con mắt trở thành chìa khóa). Đầu thê kỷ 21, đã có những 
khách sạn mà khách không cần chìa khóa phòng, chỉ cần nhìn vào 
camera ỏ cửa phòng, là phòng tự động mỏ cửa. Sự tiện lợi này dựa 
trên công nghệ nhận biết danh tính của người qua màng mắt (iris). 
Một điều thú vị là, kể cả khi hai người sinh đôi và trông giống hệt 
nhau, thì các đường nét trong màng mắt của họ vẫn rất khác nhau, 
do quá trình phát triển các đường nét trong màng mắt ở thai nhi phụ 


thuộc vào nhiều yêu tô ngẫu nhiên (không do di truyền). Từ những 
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năm 1930, các bác sĩ mắt đã nói rằng có thể dùng màng mắt để nhận 
biết danh tính người. John Daugman là một trong những người làm 
ra công nghệ nhận biết danh tính bằng màng mắt, từ cuôi thế kỷ 
20. Thuật toán của ông ta tách ra được từ ảnh màng mắt 1 mã với 
266 đơn vị thông tin có thể coi là ngẫu nhiên và độc lập với nhau 
(mỗi đơn đơn vị ỏ đây là một biên ngẫu nhiên nhận 2 giá trị 0 và 1, 
với xác suât 50% — 50%, và các biến này gần như độc lập với nhau). 
Để tìm ra 266 đơn vị thông tin độc lập đó (xuất phát từ 2048 đơn 
vị thông tin không độc lập với nhau) và kiểm định sự độc lập của 
chúng, Daugman đã làm thống kê so sánh hơn 222 nghìn lần cặp 
ảnh màng mắt khác chủ (2 mắt trong 1 cặp là của hai người khác 
nhau), và hơn 500 cặp ảnh màng mắt cùng chủ®| Một trong các kết 
quả là, tỷ lệ đơn vị thông tin chệch nhau giữa mã của 2 mắt khác chủ 
tuân theo phân bố normal với kỳ vọng là 45.6% (tức là trung bình 
hai mắt khác chủ thì có 45.6% đơn vị thông tin chệch nhau) với độ 
lệch chuẩn là 0.18%, và không có cặp mắt khác chủ nào (trong các 
thử nghiệm) có dưới 37% đơn vị thông tin lệch nhau. Mặt khác, hai 
ảnh màng mắt khác nhau của cùng một chủ thì trung bình chỉ có 9% 
các đơn vị thông tin bị lệch nhau trong số 266 đơn vị, và không có 
cặp ảnh mắt cùng chủ nào bị lệch nhau quá 31% đơn vị thông tin. Từ 
đó dẫn đến thuật toán phân biệt: coi rằng nêu hai mã bị lệch nhau 
không quá 34% sô đơn vị thông tin, thì vẫn là của cùng một người, 


còn nêu trên 34% thì coi là của hai người khác nhau. 





®J, Daugman, Wavelet demodulation codes, statistical independence, and pattern 
recognition, in: Proceedings IMA-IP: Mathematical Methods, Algorithms, and Appli- 
cations, (Blackledge and Turner eds.), Horwood, London, 2000, pages 244-260. 
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Một điều cần chú ý là, thống kê hay bị các tổ chức hay cá nhân 
lạm dụng để bóp méo sự thật theo hướng có lợi cho mình, hoặc có 
khi tự dối mình, nếu như làm không đúng cách. Có rất nhiều cách 
nói đôi khác nhau bằng thống kê, chẳng hạn như: bịa đặt các con 
sô không có thật, lựa chọn các con số có lợi, giấu đi các con số bất 
lợi, thiên lệch (bias) trong việc chọn mẫu thí nghiệm, v.v. Ví dụ về 
nói giối trắng trợn: Bộ quốc phòng Mỹ có tuyên bố rằng, trong cuộc 
chiến với Irak năm 1991, các tên lửa Patriot của Mỹ đã bắn rụng 41 
tên lửa Scud của Irak, nhưng khi Quốc hội Mỹ điều tra lại thây chỉ có 
4 tên lửa Scud bị bắn rụng. Ví dụ về bias làm hỏng kết quả thống kê: 
Báo Literacy Digest thăm dò ý kiến cử tri về bầu cử tổng thông ỏ Mỹ 
năm 1936, qua điện thoại và qua các độc giả đặt báo. Kết quả thăm 
dò trên phạm vi rất rộng cho dự đoán là Landon sẽ được 370 phiêu 
(đại cử tri) còn Roosevelt sẽ chỉ được 161 phiếu. Thế nhưng lúc bầu 
thật thì Roosevelt thắng. Hoá ra, đối tượng mà Literacy Digest thăm 
dò năm đó, những người có tiền đặt điện thoại hay đặt báo, là những 
người thuộc tầng lớp khá giả, có bias theo phía Landon (Đảng Cộng 
hòa), không đặc trưng cho toàn dân chúng Mỹ. 

Nói chung, để thống kê toán học cho ra được các kết quả đáng 
tin cậy, ngoài các công thức toán học đúng đắn, còn cần đảm bảo sự 
trung thực của các số liệu, có mẫu thực nghiệm (lượng số liệu) đủ 
lớn, và loại đi được ảnh hưởng của các bias để đảm bảo tính ngẫu 
nhiên của số liệu. Nhiều khi việc loại đi các kết quả có bias cao từ 
mẫu thực nghiệm là công việc hiệu quả, cho ra kết luận thống kê 
chính xác và đõ tôn kém hơn là tăng cõ của mẫu thực nghiệm lên 


thêm nhiều. Ở chương này, chúng ta sẽ chỉ bàn đến một số phương 
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pháp thống kê cơ bản, dựa trên giả sử là số liệu mà chúng ta nhận 


được là đúng thực và không bị bias. 


5.2 Ước lượng bằng thông kê 


5.2.1 Mẫu thực nghiệm và phân bố thực nghiệm 


Chúng ta thử hình dung một tình huống sau: Một nhà sản xuất 
dưa chuột muôi đóng hộp muốn biết phân bố chiều dài các quả dưa 
chuột (chiều dài trung bình, độ lệch chuẩn, ...), để làm vỏ hộp với 
kích thước thích hợp. Nhà sản xuất này sẽ không đi đo hết chiều dài 
của hàng triệu quả dưa chuột sẽ được đóng hộp. Họ sẽ chỉ đo chiều 
dài của một số + quả dưa chuột được chọn một cách ngẫu nhiên, rồi 
từ đó ước lượng ra phân bồ chiều dài. Số ø ở đây có thể là một con 
sô khá lớn, ví dụ 100 quả hay 1000 quả, nhưng nó là một phần rất 
nhỏ của tổng số các quả dưa chuột. 

Để mô hình hóa bài toán ước lượng trên, ta sẽ gọi X là biễn ngẫu 
nhiên “chiều dài của quả đưa chuột”. Chúng ta muôn ước lượng phân 
bố xác suất Px của X, hoặc là ước lượng những đại lượng đặc trưng 
của Px, ví dụ như kỳ vọng và phương sai. Để ước lượng, chúng ta 
sẽ lẫy ra n giá trị của X một cách ngẫu nhiên (chọn ra ø quả dưa 
chuột một cách ngẫu nhiên rồi đo chiều dài của chúng). Gọi các giá 
trị được lây ra là zị,..., z„. Bộ n giá trị (zi....,„) được gọi là một 
mẫu thực nghiệm cõ n của biễn ngẫu nhiên X 

Nói một cách tổng quát, một mẫu thực nghiệm (empirical sam- 


ple) cỡ của một biên ngẫu nhiên X là một giá trị x = (z\....,#„) 
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của vector ngầu nhiên X = (X:,..., X„), trong đó các biên ngầu 
nhiên X:,..., X„ độc lập và có cùng phân bô xác suât với X. (Trong 


ví dụ, X; là biến ngẫu nhiên “chiều dài của quả dưa chuột thứ ¡ được 
chọn”, còn z; là giá trị nhận được của X;). Các số z; được gọi là các 


giá trị thực nghiệm của X (hay của X;). 


Ghi chú 5.1. Trong thực tế, có những tình huống mà các biên ngẫu 
nhiên X:,..., X„ không thể độc lập với nhau. Ví dụ, nêu gọi X; là 
mã số của cái xác máy bay thứ ¡ của phát xít Đức mà quân đồng minh 
nhặt được, thì X; không thể bằng X; khi ¡ # 7 và do đó X; không độc 
lập với X;. Trong những trường hợp như vậy, hoặc là sự phụ thuộc 
tuy có nhưng nhỏ, có thể bỏ qua, hoặc là ta phải điều chỉnh lý thuyết 
sau cho thích hợp. Ở đây, để đơn giản, ta sẽ luôn giả sử rằng các biến 


X; độc lập với nhau. 


Mẫu thực nghiệm (z¡,...,z„) cho ta một phân bố xác suất Ô, 
trên IR, gọi là phân bố xác suất thực nghiệm, như sau: nó là phân 
bố xác suất rời rạc tập trung tại các điểm zị,...,z„, sao cho mỗi 
điểm z;¡ có tỷ trọng xác suất là 1/n. Nói cách khác, nếu z; khác tất 
cả các sô còn lại thì P„(z;) = 1/n. Nhưng nếu có k số bằng nhau, 
điệi= đa SS #v =ứy, và khác cac số còn lại, thì B;(,) = k/n. Một 
cách định nghĩa khác của phân bố Ô, này là qua hàm phân phối 
thực nghiệm #,„ của nó: với mọi z  IR, Z„(+) bằng 1/n nhân với số 
lượng các số z; nhỏ hơn hoặc bằng z. Khẳng định sau là hệ quả trực 


tiếp của luật số lớn: 


Định lý 5.1. Hầu như chắc chắn rằng P,„ hội tụ yếu đến Px khi n tiến 


tới vô cùng. 
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Nói cách khác, tập hợp các dãy vô hạn giá trị thực nghiệm 
#1;#9;: ‹ ¿yấP huy xá ¿) 
sao cho dãy các phân bố xác suất thực nghiệm („,)„cq tương ứng 


không hội tụ yêu đến phân bô xác suất Xp của X là một tập có độ 


đo bằng 0. Không gian xác suất ở đây là tích vô hạn II, px )j= 


⁄ 
^ 


(R, Px)Ÿ, tương tự như trong phát biểu của dạng mạnh của luật số 
lớn. 

Định Iý|5.1|cho ta một nguyên tắc sau đây về ước lượng: 

Phân bố xác suắt của một biến ngẫu nhiên X có thể được ước lượng 
bằng các phân bố thực nghiệm của X, và khi cỡ của mẫu thực nghiệm 
càng cao thì ước lượng này càng chính xác. Các đại lượng đặc trưng 
của X có thể được ước lượng bằng các đại lượng đặc trưng tương ứng 
của các phân bố thực nghiệm. 

Ví dụ 5.6. Kỳ vọng của phân bô thực nghiệm Ê„ của mẫu thực nghiệm 


(0 là 
1 n 
0= — Sứ, 5.1 
: HÀ : 


Giá trị ¡ được gọi là một kỳ vọng thực nghiệm (hay kỳ vọng mẫu) 
của X, và là một ước lượng của kỳ vọng của X. Tương tự như vậy, 
với mọi k € Ñ, giá trị 


1 + 
n2 „56: (5.2) 
¡=1 


gọi là moment thực nghiệm bậc *, là một ước lượng của moment 
bậc k của X. Giá trị 


ô?= ¬>. —jñ)?= ¬>. * xà nÙP (5.3) 


¿=1 =1 
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gọi là phương sai thực nghiệm (hay phương sai mẫu), là một ước 
lượng của phương sai của X. 

Ví dụ 5.7. Trung vị (median) của một biến ngẫu nhiên X là điểm zn 
sao cho #x(m) = P(X < mì) = 1/2. Nếu như ảnh ngược Zx!(1/2) 
không phải là một điểm mà là một đoạn thẳng, thì trung vị được định 
nghĩa là trung điểm của đoạn thẳng đó. Trung vị của X có thể được 
ước lượng bằng trung vị thực nghiệm, tức là của phân bố xác suất 


thực nghiệm. 
Bài tập 5.1. Suy ra định lý|5.1|từ định Iý|B.8| 


5.2.2 Hàm ước lượng 


Giả sử X là một biến ngẫu nhiên có phân bố Poisson với tham số 
A. Khi đó ta biết rằng A vừa là kỳ vọng, vừa là phương sai của X, và 
như vậy có ít nhất 2 cách khác nhau để ước lượng À: thông qua kỳ 
vọng hoặc phương sai của các phân bồ thực nghiệm. 

Nói một cách tổng quát, giả sử ta muôn ước lượng một đại lượng 
0 nào đó. Có thể có nhiều cách khác nhau để ước lượng 0, mỗi cách 
cho bởi một hàm ước lượng. Theo định nghĩa, một hàm ước lượng 
(estimator) của Ø chẳng qua là một hàm số n biễn © nào đó, nhận 
đầu vào là các mẫu thực nghiệm (z....,z„) của X, và đầu ra là các 


giá trị ước lượng (estimate) của 0: 
ô = ©(z,.... #ạ). (5.4) 


Điều chúng ta muốn có là sai số ổ — Ø giữa ước lượng Ô và giá trị thật 
của Ø càng nhỏ càng tốt. Hay nói cách khác, ước lượng càng chính 


xác càng tôt. 
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Nếu ø là một hàm số ø biến bất kỳ, và zị,..., z„ là một mẫu thực 
nghiệm cõ + của một biến ngẫu nhiên X, thì ø(X\,..., X„) được gọi 
là một hàm thống kê của biến ngẫu nhiên X, và giá trị ø(z1,..., =„) 
được gọi là một thông kê (statistic). Như vậy, ta có thể nói rằng, hàm 
ước lượng (estimator) là một hàm thống kê dùng để ước lượng một 
đại lượng nào đó, và đại lượng đó được ước lượng bằng thông kê. 

Khi cõ của mẫu thực nghiệm có thể thay đổi, thì ta cần không 
phải là một, mà là một dãy hàm ước lượng: mỗi hàm cho một cổ mẫu 
n. Ta sẽ ký hiệu chung một dãy hàm ước lượng như vậy (để cùng 
ước lượng một đại lượng 0) bằng một chữ cái (ví dụ ©) và gọi chung 
chúng là một hàm. Ta muôn rằng, khi ø càng lón thì nói chung sai số 
ô — 0 giữa ước lượng Ô và giá trị thật của Ø phải càng nhỏ. Tính chất 
này có thể phát biểu chính xác một cách toán học như sau, và gọi là 


tính nhắt quár|°®)| (consistency), của hàm ước lượng: 


Định nghĩa 5.1. Hàm ước lượng © của đại lượng 0 được gọi là nhất 


quán (consistent), nếu như với mọi c > 0 ta có 


lim P(|O(Zj,..., X„) — 0| < e) = 1. (5.5) 


7m„—>CO© 


Tính nhất quán là tính chất quan trọng nhất của hàm ước lượng. 


Ngoài ra, tùy từng trường hợp, ta có thể đòi hỏi một số tính chất 





®)Có tài liệu gọi tính chất này là tính vững, nhưng ở đây chúng ta sẽ dùng từ nhắt 
quán, vì tữ vững tiêng Việt còn được dùng để chỉ một tính chất khác của ước lượng, 
mà tiếng Anh gọi là robust. Các hàm ước lượng vững (robust) là cải tiễn của các hàm 
ước lượng “cổ điển” thường dùng, và cho ước lượng tốt kể cả khi mẫu thực nghiệm 
chẳng may có những giá trị quá đặc biệt (quá lớn hay quá nhỏ so với thông thường, 


quá hiêm xảy ra). 


224 


5.2. Ước lượng bằng thông kê 


khác, ví dụ như tính không chệch, hoặc dạng yêu hơn của nó, là tính 


không chệch tiệm cận: 


Định nghĩa 5.2. Hàm ước lượng © được gọi là không chệch (unbi- 
ased) nếu như kỳ vọng của ©(X\...., X„) bằng 0: 





0 =E(©(3t,..., Xa)). (5.6) 











Hàm ước lượng © được gọi là không chệch tiệm cận (asymptotically 


unbiased) nếu như 














0 = lim E(©(Xị,..., X„,))- (5.7) 


T7+>CO© 


Ví dụ 5.8. Như ta đã thây trong mục trước, hàm kỳ vọng thực nghiệm 


bo (5.8) 


3 
bế 
lạ 


là một hàm ước lượng của kỳ vọng của X. Dễ thấy rằng đây là một 

hàm ước lượng không chệch, và dạng yếu của luật sô lớn nói rằng 

hàm ước lượng này nhất quán. Moment bậc k của phân bố thực 

nghiệm cho hàm ước lượng — ` X‡ của moment bậc k của X. Hàm 
?ì 


¿=1 
ước lượng này nói chung không thỏa mãn tính chất không chệch khi 


k > 2, nhưng thỏa mãn tính chất không chệch tiệm cận. 


Định lý 5.2. Giả sử © là một hàm ước lượng không chệch tiệm cận 


thỏa mãn điều kiện phương sai tiễn đến 0 khi n tiến đến vô cùng: 


Hữm 30£(Ô(21;‹:-¡w))'= Ú: (5.9) 


7,—>CO© 


Khi đó © là một hàm ước lượng nhắt quán. 
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Chứng minh. Tương tự như chứng minh của dạng yếu của luật 











số lớn, suy ra từ bất đẳng thức Chebyschev. 





Ghi chú 5.2. Trong tiêng Việt, nhiều khi thay vì nói “hàm ước lượng” 
người ta nói đơn giản hóa là “ước lượng” nhưng hiểu là hàm ước 
lượng. Trong tiếng Anh thì hai từ này không lẫn với nhau: hàm ước 
lượng gọi là estimator, còn ước lượng gọi là estimate. 

Bài tập 5.2. Giả sử X có phân bô đều trên đoạn thẳng ]0, 0[. Chứng 


minh rằng 
ml 





O= BS (A 1ý Ä0:22 cm) (5.10) 


là một hàm ước lượng nhất quán không chệch của 0. 

Bài tập 5.3. Chứng minh rằng trung vị thực nghiệm là ước lượng nhất 
quán không chệch tiệm cận của trung vị. Xây dựng ví dụ cho thấy 
trung vị thực nghiệm nói chung không thỏa mãn tính chất không 
chệch. 


5.2.3. Ước lượng không chệch của phương sai 


7 


- 1 b3 lên ,Z 2 
Hàm phương sai mẫu >Ÿ = — » (x — xe) là một ước 
Thế n 


lượng nhất quán, nhưng có chệch, có nghĩa là kỳ vọng của 
tê Phj 
m ⁄ ⁄ n 
=1 
không bằng phương sai ø2 của X. Thật vậy, khi ø = 2, ta có 


S(Š”)=E D nhai  AR cong si) VD, 
2 4 4 

















E(Xỉ + Xổ — 2XI3¿) 

























































































ni E(X?)+E(XỶ)~2E(X¡)E(a)) = ;0 E(X”)~2B(X)”) = nã 
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chứ không bằng ø?. Tương tự như vậy, khi » tùy ý, có thể kiểm tra 














h Ê — l1 252A ⁄Z * ~ ` . Z 
răng (52) = 8— 22, Bồi vậy ta có định nghĩa và định lý sau: 
+ 


Định nghĩa 5.3. Hàm 


7 


m” ` 2 
2= : ).(x- 2E”), (5.11) 





m=— 14 
„=1 
gọi là hàm phương sai mẫu hiệu chỉnh. Nếu +¡,..., +„ là một mẫu 
thực nghiệm của X, thì giá trị của S2 tại bộ điểm (z\.....+„), s2 = 


ục \2 ọ ° Ẩ .ˆ ? ? 
"HT (s: = =SỊ , gọi là phương sai mâu hiệu chỉnh (của 


mâu #\,..., #„) của X. 


Định lý 5.3. Hàm phương sai mẫu hiệu chỉnh là ước lượng không 


2 


chệch của phương sai ơ? của biến ngẫu nhiên X. 


Định lý trên giải thích vì sao người ta hay dùng công thức phương 


1x "1... 
° Ẩ .A )— + ` ^ 
sai mẫu hiệu chỉnh s7 = mi › (s — >E+”) , thay vì công 
?t — n 
¿=1 


2 

Z 1 ° đói %; . 7+ _ À ác Đan) ^ ^ HA 

thức — ` (s — Sa=ii , khi nói về phương sai của một bộ øw sô 
+? 


8 + 
#S=] 


(z\.....+„). Tỷ lệ giữa phương sai mẫu hiệu chỉnh và phương sai 





ẨZ.„q TT LÁ Q2 . TỶ... .. 
mâu là ï tiên tới 1 khi nø tiên tới vô cùng. 
?T\ — 


5.2.4 Phương pháp hợp lý cực đại 


Phân bố thực nghiệm là một ước lượng của phân bố của X. Nhưng 
phân bố thực nghiệm luôn luôn là phân bố rời rạc, và có thể không 
thỏa mãn một số tính chất mà X phải thỏa mãn, tức là không nằm 


trong họ các phân bố mà X rơi vào, ví dụ như họ các phân bố normal, 
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họ các phân bồ hình học, v.v. Một trong những phương pháp phổ biên 
nhất để ước lượng phân bố xác suât của X bằng một phân bố xác 
suất trong một họ nào đó là phương pháp hợp lý cực đại (maximal 
likelyhood - dễ xảy ra nhất).Ý tưởng của phương pháp này là: những 
gì mà thây được trong thực nghiệm, thì phải dễ xảy ra hơn là những 
gì không thấy. Ví dụ như, khi một giáo viên hỏi một học sinh 4 câu 
hỏi ngẫu nhiên về một môn học nào đó mà học sinh đều trả lời được, 
thì giáo viên sẽ “ước lượng” rằng đấy là học sinh giỏi, vì khi giỏi thì 
mới nhiều khả năng trả lời được cả 4 câu hỏi, còn nêu không giỏi 
sẽ có nhiều khả năng không trả lời được ít nhất 1 trong 4 câu hơn là 
khả năng “ăn may” trả lời được cả 4 câu. Chúng ta sẽ tìm phân bố xác 
suất của biên ngẫu nhiên X sao cho mẫu thực nghiệm (z,..., #„) 
có nhiều khả năng xảy ra nhất. 

Ta sẽ giả sử X có phân bố xác suất 7 phụ thuộc vào một sô tham 
sô Ø = (Ø4,...,Ø„) nào đó. Trong trường hợp 7s là phân bố rời rạc, 
ta đặt 


£(0) = La(m\,...,#n) = Fe(1)..- Fo(#n)› (5.12) 


còn trong trường hợp 7z là phân bố liên tục với hàm mật độ øạ, thì 
ta đặt 


+2(0)'= g0 (01s4xas0u) = B8(tEt)‹ss0g Em}. (5.13) 


(8) được gọi là hàm độ hợp lý (Iikelyhood function) của Ø (khi mà 
mẫu zị,...,z„ đã biết). Bài toán mà chúng ta cần giải, là tìm Ø có 


độ hợp lý cao nhất, tức là tìm Ô sao cho 
£(8) = sup £(0). (5.14) 
6 
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Z7. ^ “4 ` È “+ 3 Ã Ầ „\ .-k 
Với nguyên tặc “đạo hàm băng 0 tại điểm cực trị”, vân đề tìm điểm 


cực đại của Z(Ø) nhiều khi được đưa về vẫn đề giải phương trình: 


—£(8) = 0. 5.15 
28 (6) (5.15) 
Không phải lúc nào phương pháp hợp lý cực đại cũng cho kết quả, 
bởi vì chẳng hạn nêu hàm Z(6) có nhiều điểm cực đại, thì không biết 
nên chọn điểm nào. Tuy nhiên, trong nhiều bài toán, phương pháp 


này cho kết quả duy nhất và khá “hợp lý” về trực giác. 





Hình 5.4: Ronald Fisher 
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Ghi chú 5.3. Người khỏi xướng phương pháp hợp lý cực đại là Ronald 
Fisher (1890-1962), một nhà di truyền học và thống kê học người 
Anh, vào đầu thế kỷ 20. Fisher cùng với Pearson được coi là những 
cha tổ của thống kê toán học. Khi Fisher đưa ra phương pháp hợp lý 
cực đại thì Pearson không ủng hộ nó, dẫn đến quan hệ căng thẳng 
giữa hai người. 

Ví dụ 5.9. Giả sử ta biết rằng X phải có phân bố xác suất đều trên 
một đoạn thẳng |, b|, nhưng ta không biết a và ö. Vẫn để đặt ra là 
ước lượng ø và ðb, dựa trên một mẫu thực nghiệm zị,..., z„. Ta có 


1 


m (5.16) 


€(a,Ù) = 0a,b(#1) -.- Ða,b(#n„) = 
và ta cần tìm ø,b sao cho 1/(b— a)” đạt cực đại. Ta biết rằng các 
điểm zị...., z„ phải nằm trong đoạn thẳng [a, b], như vậy ta phải có 
b > maxz;, ø < mìnz¿;, và 1/(b — a)” đạt cực đại khi mà b = maxz¿, 


a = mìn #¿. Bồi vậy các ước lượng của ø và b là: 
â = min, b— max 4¿. (5.17) 


Ví dụ 5.10. Giả sử ta muôn tìm xác suất của một sự kiện A4 nào đó 
(ví dụ như sự kiện: say rượu khi lái xe). Gọi X là hàm chỉ báo của A: 
X =0nêu A không xảy ra, và X = 1 nếu A xảy ra. Khi đó X có phân 
bố Bernoulli với tham số p = P(4). Để ước lượng p, ta làm n phép 
thử ngẫu nhiên độc lập, và được một mẫu z;,...,z„ của X. Các số 
z+,...,œ„ chỉ nhận hai giá trị 0 và 1. Gọi ¿ là số số 1 trong dãy số 


#1,...„#n, Và n — k là số sô 0. Khi đó hàm độ hợp lý là: 
£(p)=p°(L—p)”-°, (5.18) 
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5.2. Ước lượng bằng thông kê 


Đạo hàm của £() là #/(p) = n(k/n — p)p°~!(1 — p)ỳ"~*~!, từ đó 
suy rằng hàm Z() đạt cực đại trên đoạn |0, 1] tại điểm p = k/n = 
S3 1¡z;/n. Như vậy, theo phương pháp hợp lý cực đại, ta có ước 
lượng sau đây của xác suất p = p(4): 


ô = zin. (5.19) 
=l 


Ví dụ 5.11. Trỏ lại bài toán ước lượng phân bố của chiều dài dưa 
chuột. Ta giả sử X ở đây có phân bố normal ,(/,ø2), và ta muốn 
ước lượng kỳ vọng / và phương sai ø2 của X. Theo phương pháp hợp 
lý cực đại, ta xác định hàm độ hợp lý, khi có một mẫu z,..., +„ của 
X,là: 





l1 ; 
Cúu. Ø) - H V2zơ ©Xp ( 2g2 


¬x... _—®¬@ø- 
lì s2) ¬ =.. 70” ) Nước 


+? 


Để tìm điểm có độ hợp lý cực đại, ta giải hệ phương trình 


đ 
du Ø) =0. 


d š 
—£(u,ø)=0' và n 


dụ 


Phương trình thứ nhất tương đương với - 3 "(i — p)” =0, và 
u 


¡=1 

cho nghiệm là / = ST Phương trình thứ hai tương đương với, 
+ 

= 2 (4 — 2 .(# — 2 

ho. 22 (8i — H) 2 ;(đi — H)” Nhự 

ơ 2ø3 n : 

vậy, phương pháp hợp lý cực đại cho ta các ước lượng sau đây của kỳ 
5: 





= 0, và cho nghiệm là ø? = 


vọng /¿ và phương sai ø 


Tt Ẵ 
ñ= >4=t”i, (6.21) 


†T 
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„8.1 : .. “ : xe : 


¿=1 #=l 

Một điều thú vị là đối với phân bố normal, phương pháp hợp lý cực 
đại cho ta ước lượng của phương sai bằng phương sai mẫu, chứ không 
bằng phương sai mẫu hiệu chỉnh. (Nhắc lại rằng tỷ lệ giữa hai đại 
lượng này là n/(n — 1)). 


Bài tập 5.4. Chứng minh rằng các ước lượng trong ví dụ thỏa 
mãn tính chất nhất quán. 

Bài tập 5.5. Tìm hàm ước lượng hợp lý cực đại cho tham số À của 
phân bô mũ. 

Bài tập 5.6. Tìm hàm ước lượng hợp lý cực đại cho tham số À của 
phân bố Poisson. (Chú ý: ước lượng này không tổn tại nêu như tắt cả 


các giá trị trong mẫu thực nghiệm đều bằng 0). 


5.2.5 Phương pháp moment 


Một trong những phương pháp khác hay được dùng để ước lượng 
phân bô của X bằng một phân bố 7 nào đó, là giải hệ phương trình 


sau để tìm ước lượng của các tham số Ø = (Ø1,...,Ø¿): 
1 5 
/ zdfạ = —À _zỉ (5.23) 
R ` EI 
với mọi s = 1,...,Èk, trong đó (zị....,„) là một mẫu thực nghiệm 


của X. Về bên trái của phương trình trên là moment bậc s của phân 


bố ạ, còn về bên phải là moment bậc s thực nghiệm. 
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5.3. Sai số và độ tin cậy của ước lượng 


Bài tập 5.7. Giả sử X là một biên ngẫu nhiên với phân bồ liên tục 


cho bởi hàm mật độ ø sau: 


(5.24) 


Az^~! nễu 0< z< 1 
0(%; À) = " -.. 
0 tại các điểm còn lại 


trong đó A là một tham só. a) Tìm hàm ước lượng hợp lý cực đại của 
À. 
b) Tìm hàm ước lượng của À theo phương pháp momernt. 


5.3 Sai số và độ tỉn cậy của ước lượng 
5.3.1 Sai số của ước lượng 


Về nguyên tắc, nói chung mọi ước lượng đều có sai số, bởi vì giá 
trị của ước lượng phụ thuộc vào hàm hước lượng và giá trị của mẫu 
thực nghiệm, mà các mẫu thực nghiệm khác nhau của cùng một biễn 
ngẫu nhiên có các giá trị khác nhau, dẫn đến các giá trị ước lượng 
khác nhau, không thể tất cả đều chính xác được. 

Giả sử ©(X\,..., X„) là một hàm ước lượng của một đại lượng 
6 nào đó. Trong trường hợp © là ước lượng không chệch, tức là kỳ 
vọng của ©(X:,..., X„) chính bằng 0, thì ta có thể lây độ lệch chuẩn 
của ©(X:...., X„) làm thước đo đánh giá mức độ sai số trung bình 
của một ước lượng của Ø dùng hàm ước lượng ©. Trong trường hợp 
chung, đại lượng 





MSE(©) = E(|JÔ(Xi,..., Xa) — 6|?) (5.25) 
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được gọi là sai số trung bình bình phương (mean squared error) của 
hàm ước lượng © (cho đại lượng đặc trưng 0 của biên ngẫu nhiên X). 

Bất đẳng thức Cramér-Rao dưới đây cho ta chặn dưới của sai số 
trung bình bình phương của các hàm ước lượng. Nó cho thây, về mặt 
lý thuyết, khi cõ của mẫu thực nghiệm là có định, không thể có cách 
ước lượng với độ chính xác tùy ý, mà cách ước lượng (không chệch) 
nào cũng có sai sô trung bình bình phương lón hơn một hằng sô nào 
đó. 

Hàm ước lượng có sai số trung bình bình phương càng nhỏ thì 
được coi là càng hiệu quả (càng chính xác). Hàm ước lượng có sai số 
trung bình bình phương nhỏ nhất (trong các hàm ước lượng ø biễn 
của 0) được gọi là hàm ước ượng hiệu quả. 


Định nghĩa 5.4. Giả sử phân bố xác suắt Px = F; nằm trong một họ 
các phân bỗ xác suắt Pạ phụ thuộc vào tham số 0. Khi đó đại lượng 


1(0) = '([P 25] ) =Í [2m0 | am (5.26) 














trong đó L(œ,Ø) = P;(z) trong trường hợp Pạ là phân bố xác xuắt rời 
rạc và L(%, 9) = pg(z) trong trường hợp T; là phân bồ liên tục với hàm 
mật độ pạ, được gọi là lượng thông tin EFisher ứng với 0. 


Định lý 5.4 (Bất đẳng thức Cramér-Rao). Với mọi hàm ước lượng 
không chệch © của 0 ta có 




















l1 
E(|Ô@(Zn,..., Xa) — 6|?) > 5.2 
(Ið(X:..... Xu) — 8) > nrap (5.27) 
Nếu như © là ước lượng có chệch, với độ chệch là 
b(0) = E(O(2ï), ..cg Xn)) —. 0, (5.28) 
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và ký hiệu b'(6) là đạo hàm của b(8) theo 0, thì 


/ 2 
E(|O(Xi,..., X„) — 6|?) > „mẻ 











(5.29) 





Ghi chú 5.4. Trong phát biểu chính xác hơn của định lý trên, cần 
phải giả sử rằng phân bô xác suất của X thỏa mãn một số điều kiện 
“regularity” (không kỳ dị) (xem chứng minh phía dưới, sẽ xuât hiện 
cụ thể điều kiện). Trong các bài toán thực tê, nói chung các điều kiện 


regularity này luôn được thỏa mãn. 


Chứng minh. Ta sẽ chứng minh cho trường hợp ø = 1, ưóc lượng 
là không chệch, và phân bô xác suất là liên tục tuyệt đối với hàm mật 
độ øạ(+) = ø(0.+). Trường hợp tổng quát phức tạp hơn, nhưng các 
chứng minh hoàn toàn tương tự. 

Xuất phát từ đẳng thức J5 ©(X)ø(0, z)dz = 9 (ưóc lượng không 
chệch), lấy đạo hàm theo 0, ta có 


J o(x) 5 2 





®= 0p, 09) 
90 
việc tích phân giao hoán với đạo hàm theo 0 phía trên). Với điều kiện 


này tả có lI (o(x)- ø) 8” 


Chúng ta cần điều kiện không kỳ dị sau: lI 


dz = 0 (ngoài 





dx = 1, hay còn có thể viết 


l (9(X) - 0)⁄2(,z) Thuế) t0 T/TEDY. TS 


—©© 


Đẳng thức trên, cùng với bắt đẳng thức Cauchy-Schwartz 


- ƒgdz)? sự” ƒ°®dz)( TY g2dz), 
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suy ra 
1< (Ƒ` (6(%)~9)V00,3)240( [` (PEEP"") Vp8,8)242) = 
#(|O(X) — 0|?).I(Ø), và ta được điều phải chứng minh. 


























Ghi chú 5.5. Harald Cramér (1893-1985) là nhà toán học và thống kê 
học Thụy Điển, học trò của nhà toán học Marcel Riesz. Calyampudi 
Radhakrishna Rao (sinh năm 1920) là nhà thông kê học người gốc 
Ân Độ, làm việc tại Mỹ cho đến khi về hưu, học trò của Ronald Eisher. 
Bắt đẳng thức Kramér-Rao được hai ông làm ra vào quãng năm 1945. 
Bài tập 5.8. Thử tự chứng minh định lý trên khi ø là số tuỳ ý (và X 


có phân bô liên tục tuyệt đối). 


5.3.2. Khoảng tin cậy và độ tin cậy 


Vì nói chung mọi ước lượng đều có sai sô, nên sau khi tìm được 
một giá trị ưóc lượng ổ = ©(z¡,...,z„) của 0, ta phải “cho phép” 
nó có thể có một sai sô đến c nào đó, và coi rằng giá trị thật của Ø 
nằm trong đoạn [Ô — c,ổ + c]. Đoạn đó gọi là khoảng tin cậy. Nhưng 
điều đó không có nghĩa là ta tin tưởng 100% rằng Ø nằm trong đoạn 
lô — c, Ô + c], mà chỉ có nghĩa là ta tin rằng, với độ tin cậy cao, 0 nằm 


trong khoảng tin cậy [Ô — c, Ô + c]. Nói cách khác, ta có 
P(0 e |Ô — c,Ô+c]) =1—p, (5.30) 


trong đó 1 — p là độ tin cậy (confidence), và [ổ — c, ô + c] là khoảng 
tin cậy (confidence interval). Tắt nhiên, khi khoảng tin cậy càng hẹp 
(c càng nhỏ), thì độ tin cậy càng thập Muôn có độ tin cậy cao (tức là 


p nhỏ), thì cẦn phải để khoảng tin cậy đủ rộng (c đủ lớn). Với giả sử 
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ước lượng nhất quán, khi sai số cô định thì độ tin cậy 1 — p tiễn tới 
1 khi cõ thực nghiệm ø tiễn tới vô cùng, và ngược lại khi p cô dịnh 
thì sai số c tiên tới 0 khi n tiễn tới vô cùng. Người ta thường hay cố 
định ø (chẳng hạn p = 5% hay p = 1%), rồi tìm khoảng tin cậy tương 
ứng cho độ tin cậy đã cô định đó. 


Ví dụ 5.12. Giả sử khi đo chiều dài của 100 quả dưa chuột được 
chọn một cách ngẫu nhiên từ một quân thể (population) các quả 
dưa chuột sẽ được đóng hộp, ta được các con sô sau: X (hàm kỳ 
vọng thực nghiệm) có giá trị bằng 9.3cm (đây là giỗng dưa chuột 
nhỏ), và ô (độ lệch chuẩn thực nghiệm) là 0.5cm. Ta có thể coi là 
PB siên Ji cHÔo, có phân bố normal chuẩn tắc, trong đó ¿ là 


_ #/V100 0.05 
kỳ vọng độ dài của các quả dưa chuột tính theo cm. Đặt p = 1%, ta 
được |Z| < 3.57, có nghĩa là P(|Z| < 3.57) ~ 99% = 1— 1%. Bất đẳng 
thức 5=) < 2.57 tương đương với  € [9.3 — 2.57 x 0.05, 9.3 + 
2.57 x 0.05] ~ [9.17, 9.43]. Như vậy, [9.17, 9.43] là khoảng tin cậy của 


u với độ tin cậy 999%, 





Ghỉ chú 5.6. Có một vẫn đẻ tế nhị trong lý luận trong ví dụ trên, 
liên quan đến xác suất có điều kiện. Sai số mà chúng ta tính được là 
2.57 x 0.05 + 0.13 với độ tin cậy 99%, có nghĩa là 


P(X— nị < 0.13 | u cỗ định) ~ 99%, 


nhưng sau đó ta lại muốn hiểu điều này thành: X = 9.3 là cái biết 
được sau thực nghiệm, / là cái chưa biết, có thể coi như một biến 


ngẫu nhiên, và 
P(|X - nị < 0.13 | X = 9.3) ~ 99%. 
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Vì sao ta có thể coi P([X — „| < 0.13 | „ cỗ định) = P([X - | < 
0.13 | X cố định)? Triết lý ở đây là, ta coi rằng phân bố của sai số 
X — u không phụ thuộc vào bản thân giá trị của /, mà chỉ phụ thuộc 
vào hiệu X — ¿ (trong lớp những vẫn đề đang được xét). Kiểu như khi 
bắn cung tên vào đích: đặt đích ở đâu không quan trọng, vẫn sẽ có 
cùng 1 phân bố vẻ độ lệch của mũi tên được bắn so với tâm điểm (/;) 
của đích. Tắt nhiên điều này không hoàn toàn đúng, nhưng đủ gần 
đúng để ta sử dụng nó. Tương tự như vậy, ta cũng coi rằng phân bố 
của X — ¿ không phụ thuộc vào bản thân giá trị của X, mà chỉ phụ 
thuộc vào hiệu X — ¿. Khi đó (trong một không gian xác suất thích 
ứng cho vân để đang được xét) ta có P(|X — „| < 0.13 | „ cô định) = 
P([X - | < 0.13) = P([X - | < 0.13 | X cô định). 


Một cách tổng quát hơn, ta có thể thay ©(X) — c và ©(X) + bằng 
hai thống kê A = ø¡(X) và B = ø2(X) bất kỳ (X = (Xịi...., X„) là 
hàm mẫu thực nghiệm của X, và phân bố của X phụ thuộc tham số 


6), với A < B. Khi đó ta có định nghĩa sau: 


Định nghĩa 5.5. Giả sử A = ø¡(X) và B = ga(X) là hai hàm thông 
kê, với A < B. Giả sử P(A < 9 < B) = 1- p. Khi đó, với mọi giá trị 
thực nghiệm a của A và b của B (của cùng một mẫu thực nghiệm), ta 
nói rằng đoạn ]a, b[ là khoảng tin cậy của 0 với độ tin cậy 1 — p, hay 


còn gọi là khoảng tin cậy 100(1 — p)% của 0. 


Trong nhiều vẫn đề, thay vì ước lượng 0, người ta chỉ muốn đánh 
giá 0 một phía (xem nó lớn hơn, hay nhỏ hơn, cái gì đó). Khi đó người 


ta dùng các khoảng tin cậy một phía ] — œ, b[ hay ]a, |. 


Ví dụ 5.13. (Bầu cử). Giả sử một cuộc thăm dò ý kiến cho thây 52% số 
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người được hỏi, trong sô 400 người được chọn một cách ngẫu nhiên 
trong dân chúng, sẽ bầu cho ứng cử viên tổng thống 4 trong số 2 ứng 
cử viên chính. Hỏi có thể nói rằng A4 sẽ thắng cử với độ tin cậy bằng 
bao nhiêu? Gọi p là tỷ lệ tổng sô người sẽ bầu cho 4. Khi đó p cũng 
là là xác suất để 1 ứng cử viên ngẫu nhiên bầu cho 4. Khoảng tin cậy 
ở đây là một chiều: p > 50% thì 4 được bầu. Đại lượng thực nghiệm 
là ô = 52% = 0.52, và cỡ thực nghiệm là ¡ø = 400. Phân bố xác suất ở 
đây là phân bố Bernoulli, với độ lệch chuẩn là ø2 = V?(1 - p). Theo 
định lý giới hạn trung tâm, ta có 


PT “s21 06}: Eupoïfl46xñy 


với mọi c. Ta sẽ thay ơ bằng độ lệch chuẩn thực nghiệm ở = 8(1 - 8), 
và X bằng giá trị ô = 0.52 của nó, trong công thức trên. Như vậy, 
#@/(o.1)(c) là độ tin cậy cho khoảng tin cậy một phía 


lô — eW®(1 — 8)/n, œ[ = ]0.52 — 0.02498e, œ[ 


của p. Để xét khả năng thắng cử, cần xét khoảng tin cậy ]0.5, oo[, tức 
là đặt 0.52 — 0.02498c = 0.5. Giải phương trình đó, ta được e = 0.80, 
và độ tin cậy là .72/(o,¡)(0.80) ~ 0.788. Có nghĩa là, ta có thể dự đoán 
ứng cử viên A sẽ thắng cử, với độ tin tưởng là 78.8%. 


5.3.3. Khoảng tin cậy cho độ lệch chuẩn 


Trong các ví dụ ở mục trên, chúng ta đã dùng độ lệch chuẩn thực 
nghiệm thay thế cho độ lệch chuẩn, khi tính khoảng tin cậy và độ 


tin cậy cho kỳ vọng. Câu hỏi đặt ra là: việc dùng độ lệch chuẩn thực 
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nghiệm thay thế cho độ lệch chuẩn có làm giảm sự chính xác của 
các tính toán nhiều không? Bản thân việc dùng độ lệch chuẩn thực 
nghiệm làm ước lượng cho độ lệch chuẩni có độ tin cậy và khoảng 
tin cậy ra sao? Để trả lời câu hỏi đó, ta có thể dùng định lý sau, trong 
trường hợp phân bồ là normai: 

Định lý 5.5. Giả sử Xị,.... X„ là một bộ n biến ngẫu nhiên độc 
lập có cùng phân bỗ normal M(u,ø?), và X = ($3; X,)/n, 92 = 
1S>" '(X;¿ — X)?. Khi đó n®2/ơ2 có phân bỗ x2 với n — 1 bậc tự do. 


n 
Chứng minh của định lý trên có thể suy ra được dễ dàng từ các 
tính chất của các phân bố normal nhiều chiều (của vector (X,..., X„)), 
và một phép biến đổi tuyến tính vuông góc, tương tự như trong chứng 
minh định lý Pearson. Cũng có thể chứng minh bằng cách tính hàm 
đặc trưng hay hàm sinh moment. 
Ví dụ 5.14. Giả sử ta bắt được 20 con rồng. Trung bình mỗi con dài 
10 mét, và độ lệch chuẩn thực nghiệm của mẫu 20 con đó là 1 mét. 
Tính khoảng tin cậy 90% của độ lệch chuẩn của chiều dài của rồng? 
Ta coi chiều dài của rồng có phân bố normal với độ lệch chuẩn ơ, và 
gọi hàm độ lệch chuẩn thực nghiệm của một mẫu 20 con rồng là Š. 
Theo định lý trên, 20Š2/ø? có phân bố x‡¿ với 19 bậc tự do. Để tìm 
một khoảng tin cậy cho ø với độ tin cậy 90%, ta có thể tìm hai số 


Xốos Và xổ o; sao cho 
P(xà Š xốo) = ð% và P(xís > xãos) = ð% (5.31) 


Dùng máy tính hoặc tra bảng, ta tìm được xo; “~ 10.12 và xã; “% 
30.14, bởi vậy 
©2 


209 
P(10.12< —S 
ơ 





< 30.14) 1 — 5% — 5% = 90%. (5.32) 
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Với giá trị thực nghiệm Ê = 1, ta được bắt đẳng thức 
10.12 < 5 < 30.14, (5.33) 
tương đương với 
0.81 < ơ < 1.41. (5.34) 
Như vậy, khoảng tin cậy 90% cho øơ là ]0.81, 1.41. Có thể thây đây là 


một khoảng khá rộng (chênh lệch gần 2 lần giữa số đầu và số cuôi). 
Lý do là vì ø = 20 tương đối nhỏ, nên độ chính xác của ước lượng độ 


^ rˆ? ˆ^ 
lệch chuẩn không cao. 


5.3.4 Phân bố Student 


Trong các ví dụ ở mục trên, ta dùng định lý giới hạn trung tâm, 


rồi thay độ lệch chuẩn bằng độ lệch chuẩn thực nghiệm ớ, để kết 





luận rằng phân bồ xác suất của —. (hay của trong đó >2 


X—P 

ô/vn Đ/Vmn ? 

là hàm phương sai thực nghiệm, còn ở? là một giá trị thực nghiệm 

của nó), có thể xắp xỉ bằng phân bố normal chuẩn tắc ,V(0, 1). Điều 

này chỉ đúng đắn khi mà ø đủ lớn. Khi ø nhỏ thì xấp xỉ này không 

còn tốt nữa, và khi đó thì thay vì phân bố normal chuẩn tắc ta phải 
dùng các mô hình phân bô khác. Bởi vậy ta có định nghĩa sau: 

Định nghĩa 5.6. Nếu X\,..., X„ là một bộ n biến ngẫu nhiên độc lập 


có cùng phân bỗ normal (u, ơ2), và 


“=.. 
T= S/yn' (5.35) 


trong đó X = (X3J—\ Xi)/nvà 8 = (Ja1y SJ—-¡(Xị — X)®, thì phân bố 
xác suắt của T' được gọi là phân bỗ Student, hay phân bô T (Student 





T-distribution), với  — 1 bậc tự do. 
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Ghỉ chú 5.7. Dễ thấy rằng, trong định nghĩa trên, phân bố của 7 
không phụ thuộc vào „ và ơ. Phân bố T được nhà thống kê học người 
Anh, ông William Sealy Gosset (1876-1937), đưa ra vào năm 1908, 
khi đang làm việc cho hãng bia Guinness ở Dublin (thông kê để chọn 
bia ngon). Do nguyên tắc giữ bí mật của hãng bia, Gosset không được 
phép ký tên các bài báo của mình với tên thật, nên lây bút danh là 
Student. Khái niệm bậc tự do của phân bố T là do Ronald Eisher đưa 
ra, vì nó phù hợp với các công trình khác của Fisher liên quan đến 


bậc tự do. 








Hình 5.5: Hàm mật độ của các phân bồ T với 1, 3 và 30 bậc tự do 
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Phân bố Student rất quan trọng trong việc xác định các khoảng 
tin cậy và độ tin cậy trong trường hợp mẫu thực nghiệm có cỡ nhỏ. 
Bỏi vậy nó được nghiên cứu khá kỹ lưỡng. Công thức để tính hàm 


mật độ của phân bố Student là: 


Định lý 5.6. Phân bố Student T với  > 1 bậc tự do có hàm mật độ 


sau: 1 
T2 ) 1 


_ TỊ 
Ou(%) = Tự vn) (5.36) 





Công thức trên có thể suy ra được từ công thức tính hàm mật độ 


của phân bố x2 và từ định lý sau. 


Định lý 5.7. Giả sử Xị,.... X„ là một bộ n biến ngẫu nhiên độc 
lập có cùng phân bỗ normal N(u,ø2), và X = (ý) X;)/n, S = 
VsH X?-(X: — X)?. Khi đó: 

) X độc lập với các biến ngẫu nhiên X; — X và với ®S. 

ïÙ (n — 1)S2/ø2 có phân bỗ x2 với n — 1 bậc tự do. 

ii) Nếu Z có phân bố (0.1) và U có phân bỗ x2 với m bậc tự do, thì 
ZVm/vŨ có phân bỗ Student T với m bậc tự đo. 





Chứng minh của định lý trên có thể suy ra được dễ dàng từ các 
tính chất của các phân bố normal nhiều chiều. 

Theo định lý giới hạn trung tâm, thì phân bô Student với › bậc tự 
do hội tụ đến phân bố normal chuẩn tắc khi ø tiễn tới vô cùng. Tuy 
nhiên, khi ø nhỏ, thì độ chênh lệch giữa phân bố Student và phân 
bố normal chuẩn tắc khá cao. Hình|5.5|là độ thị hàm mật độ của các 
phân bồ t với 1, 3 và 30 bậc tự do. Khi số bậc tự do là 30 trỏ lên thì 


phân bố t gần bằng phân bô normal chuẩn tắc, nhưng với sô bậc tự 


243 


Chương 5. Thống kê toán học 


do nhỏ nhỏ, thì nó “dàn trải” hơn nhiều so với phân bố normal chuẩn 
tắc. Có thể tính toán các giá trị của hàm phân phối xác suất của phân 
bố Student T bằng cách tra bảng hoặc dùng chương trình máy tính. 
Ví dụ 5.15. Tiếp tụ ví dụ trong mục trước về rồng. Vì việc xấp xỉ độ 
lệch chuẩn bằng độ lệch chuẩn thực nghiệm có độ chính xác kém khi 
¡ = 20, nên ta phải dùng phân bồ 7' thay cho phân bố normal chuẩn 
tắc khi tính khoảng tin cậy của kỳ vọng. Đặt 7 = (X — u)Wn — 1/3, 
trong đó ø = 20 là số con rồng bắt được (cõ của mẫu), là kỳ vọng 
chiều dài của rồng, X là hàm kỳ vọng thực nghiệm, và ® là hàm độ 
lệch chuẩn thực nghiệm. Khi đó 7 tuân theo phân bố Student T với 
19 bậc tự do. Giả sử ta muôn tìm khoảng tin cậy 90% cho „. Ta cẦn 
tìm sô c sao cho 

P(IT| < e) = 90%. (5.37) 


Tra theo phân bô Student T với 19 bậc tự do, ta có c ~ 1.729. Bởi vậy 
ta cần giải bắt phương trình 
l(X —- ø)v20 - 1/Š| < 1.729, (5.38) 
trong đó X = 10 và Ð = 1 (là các đại lượng thực nghiệm). Kết quả là 
9.603 <  < 10.397 (5.39) 
với độ tin cậy 90%. 
Bài tập 5.9. Giả sử có một loại xe ô tô mới, cho 5 người chạy thử 5 xe 
khác nhau trên đường cao tốc, với kết quả chạy 100km hết lần lượt 
là 4.53, 3.82, 4.37, 3.91, 4.16 lít xăng. Tìm khoảng tin cậy cho số lít 


xăng tiêu tôn trung bình của loại xe này cho 100km đường cao tốc, 


với độ tin cậy 90%. 
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5.4 Kiểm định các giả thuyết 


Trong phần này, và phần sau, chúng ta sẽ bàn đến những phương 
pháp thông kê dùng để tra lời những câu hỏi dạng “có hay không 
một hiện tượng hay hiệu ứng nào đó”. Ví dụ: loại thuốc chữa bệnh 
cảm này có hiệu nghiệm không?, có kỳ thị giới tính trong việc tuyển 
người không?, chất thải của nhà máy này có làm hại sức khỏe của 
nhân dân xung quanh không?, sở thích âm nhạc có thay đổi theo độ 
tuổi không?, độc quyền có ảnh hưởng xấu đến kinh tế không?, v.v. 
Mỗi tình huông “có hay không” như vậy có thể viết dưới hạng một giả 
thuyết, thường ký hiệu là Họ, gọi là không thuyết (null hypothesis), 
và một giả thuyết đối ngược lại nó, thường ký hiệu là 7; hoặc H„u, 
gọi là đôi thuyết (alternative hypothesis). 

Có một điều mà bạn đọc cần hết sức chú ý. Đó là, mỗi phương 
pháp kiểm định bằng thống kê chỉ thích hợp trong những tình huông 
nhất định, khi các giả sử nhất định được thoả mãn. Khi có một vẫn 
để kiểm định thống kê trong thực tế cần thực hiện, thì phải chọn lựa 
phương pháp đúng đắn, và rất có thể là phương pháp mà bạn đọc cần 
đến không nằm trong quyển sách này (vì số phương pháp thì nhiễu, 
mà quyển sách chỉ giới thiệu một số phương pháp cơ sở), và bạn đọc 
sẽ phải tìm hiểu sâu thêm về thống kê để chọn lựa được phương pháp 


thích hợp cho vẫn để của mình. 
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5.4.1 Một số nguyên tắc chung của kiểm định bằng thông 
kê 


Tương tự như ước lượng, việc kiểm định giả thuyết bằng thống 
kê không cho kết quả “chính xác 100%”, mà chỉ cho kết quả với một 
độ tin cậy nhất định nào đó, và có thể xảy ra sai lầm. Các sai lầm có 
thể phân làm hai loại: 

- Sai lầm loại 1: phủ nhận giả thuyết /ọ, chấp nhận đôi thuyết 77\, 
trong khi Họ đúng 
- Sai lầm loại 2: giữ giả thuyết Họ, không chấp nhận đôi thuyết H¡, 
trong khi H¡ đúng. 

Cả hai loại sai lầm đều có thể gây ra những hậu quả không tốt. 
Tùy từng trường hợp mà đánh giá xem sai lầm loại nào dẫn đến hậu 
quả nghiêm trọng hơn, và cần tránh hơn. Ví dụ, trong trường hợp 
chất thải có thể gây ung thư: nếu theo thống kê, ƒ xảy ra với độ 
tỉn tưởng 80% (tức là với độ tin tưởng 80%, chất thải không gây ung 
thư) và chỉ có 20% là H¡ (chất thải gây ung thư) xảy ra, thì như thế 
cũng đủ quá nguy hiểm với tính mạng con người, và trong trường 
hợp này không chấp nhận được Họ (tức là không thể để cho nhà máy 
thải chất thải như vậy). Nhưng ngược lại, nêu đôi với một loại thuốc 
mới, kiểm định thông kê cho thây Họ (giả thuyết thuốc không có tác 
dụng) có trên 5% khả năng xảy ra, thì nói chung thuốc chưa được 
Bộ Y Tế của các nước chấp nhận, và phải nghiên cứu và thí nghiệm 
thêm cho đến khi chứng tỏ được là /¡ (giả thuyết thuốc có tác dụng) 
là đúng đắn với độ tin tưởng rất cao (ít ra trên 95%) thì thuốc mới 


được chấp nhận. 
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Khi kiểm định bằng thông kê, các giả thuyết và đối thuyết thường 
có thể phát biếu lại dưới dạng: một đại lượng nào đó (mà ta không 
biết, muốn ước lượng) nằm trong một đoạn thẳng nào đó, với độ tin 
cậy nào đó. Bỏi vậy, các bài toán kiểm định có thể coi như là những 
trường hợp đặc biệt của các bài toán ước lượng. Ví dụ, nêu Họ là, “khi 
bầu vào quốc hội, đàn bà cũng có xác suât được bầu nhiều như đàn 
ông”, thì #ọ có thể bị loại bỏ và H; được chấp nhận nêu như ước 
lượng cho thầy “xác suất để người được bầu vào quốc hội là đàn ông” 
nằm trong đoạn ]1/2, [, với độ tin cậy trên 99%. 

Nhắc lại rằng, trong vẫn đề ước lượng, độ tin cậy được coi bằng 
xác suất để một kết quả thông kê thực nghiệm nằm trong một miễn 
nào đó, khi mà đại lượng mà ta muốn ước lượng nằm trong một 
khoảng nào đó (khoảng tin cậy). Ta đạt độ tin cậy đó, khi mà kết quả 
thống kê thực nghiệm của ta nằm trong miễn cần thiết. Trong ví dụ 
bầu cứ quốc hội, thì đại lượng mà ta muôn ước lượng là xác suất để 
một người được bầu cử là đàn bà. Có hai cách phát biểu điều kiện: 
hoặc là “xác suât để người được bầu là đàn bà không nhỏ hơn 50%” 
hoặc là “xác suất để người được bầu là đàn bà bằng 50%”. Giả sử kết 
quả thông kê ở đây là số người được bầu vào quốc hội là đàn ông là 
một số N. Khi đó xác suất (độ tin cậy) ở đây có thể viết là 


Pị = P(x.s. để ng. được bầu là nữ > 50% | số ng. được bầu là nam = N), 
hoặc là 

P= P(sô ng. được bầu là nam > X | x.s. để ng. được bầu là nữ = 50%), 
Đại lượng P cuỗi cùng là cái mà ta có thể tính được trực tiếp bằng 
các công thức xác suất, còn 7; là độ tin cậy, ta không tính trực tiếp, 


mà lý luận rằng nó có thể coi là (gần) bằng P. Chú ý rằng ta không 
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việt 

P(x.s. để ng. được bầu là nữ = 50% | số ng. được bầu là nam = Ñ), 
hoặc là 

P(sô ng. được bầu là nam = X | x.s. để ng. được bầu là nữ = 50%), 


vì nêu dùng đẳng thức ỏ cả sự kiện và điều kiện, thì xác suất nói 
chung sẽ rất nhỏ, dù thực tế xảy ra thê nào, và bỏi vậy không dùng 
nó để kiểm định được. 

Giá trị P = (xác suất để số người được bầu là đàn ông > N dưới 
điều kiện: xác suắt để người được bầu là đàn bà = 50%) được gọi là 
giá trị P cho giả thuyết /7ạ (xác suất để người được bầu là đàn bà = 
50%). Nó là xác suất sao cho giá trị của thông kê (ở đây là số đàn 
ông được bầu) bằng hoặc thái quá hơn là giá trị thực nghiệm nhận 
được (ở đây là số N). Trong trường hợp chung, ta có định nghĩa sau: 


Định nghĩa 5.7. Giá trị P (P-value) là xác suắt để giá trị của một 
thống kê nào đó rơi vào một miền nào đó, khi mà giả thuyết Họ đúng: 
P=P(Ge€Al| Hạ), (5.40) 


trong đó G là một thông kê và A là miễn gồm những giá trị bằng hoặc 


thái quá hơn so với giá trị thực nghiệm của G. 


Nguyên tắc kiểm định như sau: Cố định một số œ nào đó (ví dụ 
œ = 1% hoặc œa = 5%). Nếu giá trị P nhỏ hơn œ thì chấp nhận đối 
thuyết I\, còn nếu P > œ thì giữ giả thuyết Hạ. 
Ví dụ 5.16. Tung một đông tiền 20 lần, ra 2 lần mặt sắp và 18 lần 


mặt ngửa. Có thể coi đồng tiền là cân bằng (hai mặt sắp và ngửa 
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đều có xác suất 50%) không? Giả thuyết /7ọ là “đồng tiền cân bằng”. 
Gọi X là biến ngẫu nhiên “số lần hiện mặt sắp trong 20 lần tung”. 
Giá trị P ở đây là: P = P(X < 2 | xác suất hiện mặt sắp = 50%) = 
(Ca + Cu + Cñy)/2?0 ~ 0.02%. Giá trị này quá nhỏ để có thể chấp 
nhận giả thuyết Hạ. 


Giá trị P ở phía trên có thể coi là xác suất để xảy ra sai lầm loại 1. 
Nó thích hợp cho những trường hợp mà sai lầm loại 1 là cái cần chú 
ý đến (hơn so với sai lầm loại 2). Nếu cần chú ý đến sai lầm loại 2, 
thì phải tính xác suất để xảy ra sai lầm loại 2, thay vì xác suất để xảy 


ra sai lầm loại 1. (Phương pháp làm hoàn toàn tương tự). 


Bài tập 5.10. (Tuổi lấy chông ở Roma thời cổ đại). Có một lý thuyết 
của các nhà khảo cổ học cho rằng, tuổi lẫy chồng lần đầu trung bình 
ở Roma thời cổ đại là khoảng 19 tuổi, vì ở các mộ phụ nữ mà có văn 
bia (epitaph) là do người cha viết thì tuổi trung bình dưới 19, con do 
chồng viết thì tuổi trung bình trên 19. (Người ta giả thuyết rằng phụ 
nữ đã có chồng khi chết thì văn bia do chồng viết, còn chưa có chồng 
thì do cha viết). Thê nhưng, theo một ghi chép lịch sử, tuổi lây chồng 
lần đầu của 26 phụ nữ Roma cổ đại được ghi là: 11, 12, 12, 12, 12, 
13, 13, 13, 13, 13, 14, 14, 14, 14, 14, 14, 15, 15, 15, 15, 15, 15, 16, 
16, 17, 1 Gọi Họ là giả thuyết “tuổi lẫy chồng trung bình ở Roma 
cổ đại là 19”, và giả sử rằng tuổi lẫy chồng có phân bố normal, với 
độ lệch chuẩn coi bằng độ lệch chuẩn mẫu của mẫu thực nghiệm với 
26 giá trị trên, tức là bằng 1.57. Chứng minh rằng giá trị P nhỏ hơn 
1% (Gợi ý: có thể dùng bất đẳng thức Chebyschev). 





(Theo: A. Lelis, W. Percy, B. Verstraete, The age oƒ first mariage in ancient Rome, 
Edwil Mellen Press, 2003; trích lại từ [7]. 
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5.4.2 Kiểm định Z và kiểm định T cho kỳ vọng 


Bởi vì bài toán kiểm định có thể coi là trường hợp đặc biệt của bài 
toán ước lượng, nên các phân bố hay được dùng để tính khoảng tin 
cậy trong ước lượng cũng xuất hiện trong kiểm định. Hai loại phân bố 
hay gặp nhất là: phân bô normal chuẩn tắc (dùng trong trường hợp 
mẫu thực nghiệm lớn), và phân bố T (cho mẫu thực nghiệm nhỏ, với 
giả sử là phân bô xác suất ban đầu là normal hặc gần giỗng normal). 
Các kiểm định dùng phân bố normal chuẩn tắc được gọi là kiểm định 
Z, còn các kiểm định dùng phân bố Student T được gọi là kiểm định 
T. Chẳng hạn, ta có định nghĩa sau: 


Định nghĩa 5.8. Kiểm định Z cho giá trị kỳ vọng là kiểm định giả 

thuyết dùng thông kê 

— X =0 
ơ/vn 


x„- TÀ _ X-ứo 
Z hoặc là Z = â/yn ` (5.41) 








trong đó: 
Ù Ä là giá trị trung bình của một mẫu thực nghiệm cỡ n của một biến 


ngấu nhiên X 











i) Giả thuyết ở đây là về kỳ vọng u = R(X) của X. Giả thuyết Họ là 





u = Họ, và đối thuyết là ¡ # nọ (hoặc là Hạ : u < bọ, Hì : t > đọ; 
hoặc là Hạ : u > nọ, Hh :  < nọ). 
ii) Hoặc là X được giả sử là có phân bố normal với độ lệch chuẩn ơ 
biết trước, hoặc là n đủ lớn sao cho có thể coi là Z có phân bỗ normal 
chuẩn tắc, và thay vì dùng ơ ta dùng ô, trong đó ô? là phương sai thực 
nghiệm (cho bởi công thức (5.3). 


Tương tự như vậy, có thể định nghĩa kiểm định T cho giá trị kỳ 
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 ẻ _ X- ¬ : 
vọng, tức là kiếm định dùng thông kê 7' = — e °, và coi răng T' có 
>/Vn 





phân bố Student T với ø — 1 bậc tự do. 
Ví dụ 5.17. (Thuốc cảm). Giả sử một hãng dược phẩm muốn kiểm 
định sự hiệu nghiệm của một loại thuộc cảm mới. Thuốc được đưa 
cho 100 người bệnh ngẫu nhiên sử dụng khi bắt đầu có triệu chứng 
cảm. Giả sử một người bị cảm mà không chữa bằng thuốc, thì quá 
trình bị cảm kéo dài trung bình 7 ngày. Gọi X là Giả sử độ dài trung 
bình của đợt bị cảm của những người được thử cho dùng thuốc mới 
là X = 5.3, với độ lệch chuẩn thực nghiệm là 1.5 ngày. Hỏi thông tin 
này có đủ để chứng tỏ thuốc có hiệu nghiệm không? 

Vì X = 5.3 < 7 nên chúng ta muốn chấp nhận đối thuyết H 
(thuốc hiệu nghiệm). Nhưng trước khi chấp nhận nó, chúng ta cần 
phải khẳng định được rằng giá trị P ở đây, 


J =f(ÄX š B3|HỤ); 











rất nhỏ. Giả thuyết Họ ở đây có thể hiểu là sự kiện “E(X) = 7”, tức là 





nêu đem thuốc mới dùng đại trà, thì kỳ vọng độ kéo dài của đợt cảm 
không khác gì so với nêu không dùng thuốc). Thay vì tính P(X < 
5.3|E(X) = 7), ta có thể chỉ cần kiểm tra xem P(X < 5.3|E(X) = 


7) < œ hay không, trong đó œ là một số rất nhỏ nào đó, ví dụ œ = 1%. 


























Để làm điều đó, ta cần giải phương trình 





PŒ < c|E(X) =7) = o, (5.42) 











rồi kiểm tra xem điều kiện 5.3 < c có được thỏa mãn không. 
Mẫu thực nghiệm ở đây là đủ lớn (» = 100) để áp dụng định lý 


giới hạn trung tâm và dùng kiểm định Z. Nói cách khác, ta có thể coi 
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Z= TC coi co Diên, CÀ» là một biên ngẫu nhiên với 
ơ(4) (4) 

phân bố normal chuẩn tắc (0,1). Khi đó X < c tương đương với 

Z< "¬ Ta sẽ coi ơ(X) bằng độ lệch chuẩn thực nghiệm, tức 


là ơ(X) = 1.5, và E(X) = 7. Như vậy 























= “ng 3) (5.43) 


là giá trị của hàm phân phôi xác suất của phân bố normal chuẩn 
_ Đặt œ = 1%, ta được _ = —2.33, tức là 
c2 (7— 2.33) x 1.5/10 6.65. Vì 5.3 < 6.65, nên P < œ = 1, và ta 


có thể chấp nhận đối thuyết H¡, tức là thuộc có hiệu nghiệm. 


“4 Ũ ca? 
tặc tại điểm 


Bài tập 5.11. Trong một trang trại nuôi bò lớn, trọng lượng trung 
bình của bò là 520kg. Một loại thực đơn mới nhằm tăng trọng lượng 
cho bò được đem thử trên 50 con bò chọn ngẫu nhiên. Các con bò 
được thử đạt trọng lượng trung bình là 528kg với độ lệch chuẩn 25kg. 
Hỏi thực đơn mới có hiệu nghiệm không? (Dùng kiểm định Z,). 


Bài tập 5.12. Một hãng xe ô tô tuyên bố là một loại xe mới do hãng 
sản xuất chỉ tiêu tốn trung bình 3.0 lít xăng cho 100km trên đường 
cao tốc. Một tổ chức độc lập kiểm tra khẳng định này, bằng cách cho 
5 người chạy thử 5 xe khác nhau của loại xe mới đó, và kết quả là: 
2.90, 2.95, 3.10, 3.35, 3.45 (lí⁄100km). Dựa theo số liệu này, hãy 
xác định xem tuyên bố của hãng xe ô tô có chấp nhận được không? 
Giả sử cho 5 người khác chạy thử thêm 5 xe, và được thêm 5 kết quả 
là 2.95, 3.00, 3.15, 3.30, 3.40. Kiếm định lại xem tuyên bố của hãng 
xe ô tô có chấp nhận được không, dựa trên tổng cộng 10 kết quả. 
(Dùng kiểm định T). 
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Bài tập 5.13. Các trạm cung cấp nước cho thành phô phải kiểm tra 
chất lượng nước hàng giờ, trong đó có kiểm tra độ pH. Mục tiêu là 
giữ độ pH của nước ở quãng 8.5 (hơi có tính kiểm: trên 7 là kiểm, 
dưới 7 là axít). Một lần kiểm tra 15 mẫu nước ỏ một trạm, thấy rằng 
độ pH trung bình của các mẫu bằng 8.28 và độ lệch chuẩn là 0.14. 
Hỏi rằng có đủ cơ sở để kết luận rằng độ pH trung bình của nước ở 
đó vào thời điểm đó khác 8.5? (Dùng kiểm định T). 


5.4.3. Kiểm định so sánh hai kỳ vọng 


Giả sử ta muốn so sánh kỳ vọng của hai biến ngẫu nhiên X và Y 
với nhau, dựa trên một mẫu thực nghiệm cõ +x của X và một mẫu 
thực nghiệm cỡ øy: của Y. Giả thuyết Họ là E(X) = E(Y) + A (hoặc 
#(X) < E(Y) + A) và đối thuyết ¡ là E(X) # E(Y) + A (hoặc 
#(X) > E(Y) + A). Ở đây A là độ chênh lệch giữa hai kỳ vọng theo 
giả thuyết. 




























































































Khi ø và rn lón, thì dựa theo định lý giới hạn trung tâm và ước 


. 4 ;+z_.šx  AX-E(X) ,Y-E(Y 
lượng của độ lệch chuẩn, ta có thể coi răng — về) Và —= bề, 
3”x/vnx »y/Vny 


` ¬= Ẩ .A ^ ^ ⁄Z A HA L é ⁄Z 
là hai biên ngâu nhiên độc lập có phân bô normal chuẩn tắc, trong đó 





























X là hàm kỳ vọng thực nghiễm của X (với cõ thực nghiệm nœx), Èx 
là hàm độ lệch chuẩn thực nghiệm của Ä, và tương tự như vậy cho 





























v. Sở C ¬ .—-.- X-E(X))-(Y -K(Y : 
Y. Từ đó suy ra ta cũng có thể giang hố  EHE. ữ)) có 
Ÿ⁄, S‡ 
nx `” Ty 
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phân bố normal chuẩn tắc. Bởi vậy ta có thể đặt 


X—Y-A 
J/4° giết G ChiP áo ai) (5.44) 


Ni 


T†tXx Ty 








Nếu giả thuyết /7ạ là đúng, tức là E(X) = E(Y) + A thì Z có phân bố 




















normal chuẩn tắc. Kiểm định dựa trên giá trị thực nghiệm của thống 
kê Z này được gọi là kiểm định Z hai mẫu (two sample Z test) để so 
sánh hai kỳ vọng. 


Ví dụ 5.18. (Aspirin chống đau tim). Trong một đọợt thử nghiệm lớn, 
22071 bác sĩ tham gia thử nghiệm lâm sàng về tác dụng của Aspirin 
chồng đau tim. Các bác sĩ được chia một cách ngẫu nhiên thành hai 
nhóm: nhóm 1 gồm 11037 người, được cho dùng Aspirin, còn nhóm 
hai gồm 11034 người được cho dùng placebo (không có thuốc). 
Không ai được biết mình thuộc nhóm được cho thuốc hai là nhóm 
placebo. Kết quả thử nghiệm cho thấy: 104 người thuộc nhóm dùng 
aspirin bị lên cơn đau tim (heart attack), và nhóm placebo có 189 
người bị lên cơn đau tỉm, những người còn lại không bị. Hỏi thuốc có 
hiệu nghiệm để chống đau tim không? 

Trong bài toán này, có thể đặt X là biến Bernoulli, bằng 1 nếu bị 
đau tim, bằng 0 nêu không bị đau tim, trên quần thể những người 
không dùng aspirin. Kỳ vọng của X là xác suất để bị đau tim với điều 
kiện là không dùng aspirin. Biến Y tương tự, nhưng cho những người 
có dùng aspirin. Thuốc hiệu nghiệm nếu kiểm định cho thấy kỳ vọng 
của Y phải nhỏ hơn kỳ vọng của X. Có thể coi Họ là giả thuyết kỳ 
vọng của Y bằng kỳ vọng của X. Ta có một mẫu thực nghiệm của 
X với cõ 11034, kỳ vọnng thực nghiệm là 189⁄11034, và phương sai 
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mẫu là (1 - 189/11034).189/11034. Tương tự như vậy cho Y. Giá trị 
của thông kê Z bằng: 


189 _— 104 
11034 — T1037 5 
(1—189/11034).189/11034 , (1—104/11037).104/11037 
11034 L 11037 











Vì P= Pv(oa;([5, +o[) < 1/108 là con số quá nhỏ, nên ta có thể đễ 
dàng loại bỏ Họ và chấp nhận đối thuyết H¡, tức là aspirin có hiệu 


nghiệm chống lên cơn đau tim. 


Trong trường hợp mà mẫu thực nghiệm của X và Y có cỡ nhỏ(các 
sô nx và nøy nhỏ), kiểm định Z không còn chính xác. Có thể thay thế 
nó bằng kiểm định T hai mẫu (two sample T test), nêu như X và Y 
có phân bố (gần giống) phân bô normal, và được coi là có phương sai 
bằng nhau. Thông kê T' ở đây là 

Tìe __— (5.45) 


S% Ị Sỹ. /_tx +ny 

Ty , Tx ` Ttx Ty —~2 

Với giả sử rằng Họ là đúng (E(X) — E(Y) = A), thì 7 có phân bố 
Student T với w®x -+ my — 2 bậc tự dd] 
































Ví dụ 5.19. Giả sử một người nghiên cứu xã hội muốn điều tra xem 
những người trẻ độ tuổi 20-30 và những người già độ tuổi trên 70, 
có hài lòng về cuộc sông hiện tại như nhau không. Người này phỏng 
vẫn ngẫu nhiên 10 người già và 12 người trẻ, và đánh giá độ hài lòng 


theo thang điểm từ 0 đến 100 (100 là hoàn toàn hài lòng). Giả sử các 





Œ?Nêu X và Y có phương sai khác nhau, thì có một kiểm định T tương tự, gọi là 
Welch's T test, cũng dùng phân bồ T, nhưng với số bậc tự đo được tính một cách phức 
tạp hơn. 


255 


Chương 5. Thống kê toán học 


kết quả nhận được là: 

Người trẻ: 77, 68, 82, 55, 91, 63, 78, 56, 47, 80, 78, 60; 

Người già: 76, 35, 66, 53, 85, 38, 47, 66, 72, 61. 

Giả thuyết /ọ là người trẻ và người già có độ hài lòng về cuộc sông 
như nhau. Mẫu thực nghiệm ỏ đây tương đối nhỏ, không thích hợp 
cho kiểm định Z, nhưng ta có thể dùng kiểm định T. Gọi X là biến 
“độ hài lòng của một người trẻ”, Y là biên “độ hài lòng của một người 


già”. Theo hai mẫu thực nghiệm trên, ta có: 


nx = 12, X = 69.58, Öx = 13.36, ny = 10,Y = 59.90, 9y = 16.41. 


Có thể tính ra thống kê 7' ở đây có giá trị bằng (69.58—59.90)/6.3415 
1.526, và số bậc tự do là 10 +12 - 2 = 20. Ta có giá trị P bằng 
P = P(T›ạ| > 1.526) + 14.3%, trong đó 7öo là ký hiệu biến ngẫu 
nhiên có phân bố Student T với 20 bậc tự do. Tuy rằng X = 69.58 
chênh lệch với Y = 59.90 khá nhiều, nhưng mà giá trị P ở đây bằng 
14.3% là một con số không đủ nhỏ để có thể loại bỏ giả thuyết Họ. 
Người nghiên cứu này phải điều tra thêm trước khi có thể kết luận là 
độ hài lòng về cuộc sông của người trẻ cao hơn người già. 

Bài tập 5.14. Giả sử khi khảo sát 30 học sinh nam và 30 học sinh 
nữ ở một trường học lớn, thấy điểm toán trung bình của 30 học sinh 
nam là 7.0 với độ lệch chuẩn 1.4, còn của 30 học sinh nữ là 7.4 với 
độ lệch chuẩn 1.5. Có thể kết luận được rằng học sinh nữ giỏi toán 
hơn học sinh nam ở trường này được không? (Dùng kiểm định Z,). 


Bài tập 5.15. Người ta muốn kiểm tra hiệu quả của một chương trình 
xã hội chăm sóc phụ nữ nhà nghèo đang có thai. Khảo sát trên 50 


đứa trẻ sinh ra từ các phụ nữ tham gia chương trình này cho thấy các 
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đứa trẻ này lúc sinh ra nặng trung bình 3000 gam, với độ lệch chuẩn 
410 gam. Để so sánh, người ta khảo sát 50 đứa trẻ sinh ra từ các phụ 
nữ nhà nghèo không tham gia chương trình, và thấy rằng những đứa 
trẻ này lúc sinh ra có cân nặng trung bình là 2650 gam với độ lệch 
chuẩn 425 gam. Kiểm định xem chương trình này có giúp làm trẻ em 
nhà nghèo đạt cân nặng cao lên khi sinh ra không? 

Bài tập 5.16. Một viện dưỡng lão làm thí nghiệm sau: chọn 30 người 
già ngẫu nhiên trong viện, chia làm 2 nhóm mỗi nhóm 15 người. 
Cho mỗi người một cái cây cảnh. Yêu cầu những người nhóm đầu 
tiên hàng ngày chăm sóc cây, còn không yêu cầu những người trong 
nhóm thứ hai chăm sóc cây. Ghi lại số lần than phiền về sức khỏe của 
những người trong hai nhóm trong vòng 1 tuần sau khi cho cây. Kết 
quả là: 

Nhóm 1 (được yêu cầu chăm sóc cây): 23, 12, 6, 15, 18, 5, 21, 18, 
34, 10, 23, 14, 19, 23, 8. 

Nhóm 2 (không yêu cầu chăm sóc cây): 35, 21, 24, 26, 17, 23, 37, 
22, 16, 38, 23, 41, 27, 24, 32. Hãy xem việc chăm sóc cây có ảnh 
hưởng đến số lần than phiển về sức khỏe không. (Dùng kiểm định 
T). 


5.4.4. Kiểm định E so sánh hai độ lệch chuẩn 


Nhắc lại rằng, nêu biến ngẫu nhiên X có phân bố normal .V(, ø2), 
và >2 là hàm phương sai mẫu của X với cõ thực nghiệm ø, thì ø>2/ø2 
có phân bố x2 với » — 1 bậc tự do. Do đó, có thể dùng các phân bố 
x2 trong việc ước lượng và kiểm định về phương sai và độ lệch chuẩn 


của X (với giả sử phân bố của X là normal). 
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Tương tự như vậy, trong trường hợp X và Y là hai biến ngẫu 
nhiên với phân bố normail, thì để kiểm định so sánh độ lệch chuẩn 


71 3A 1A r z 2ˆ 1À Z ^ HA 
của X với độ lệch chuẩn của Y, ta có thể dùng các phân bô sau: 


Định nghĩa 5.9. Giả sử x2, và x2 là hai biến ngẫu nhiên độc lập có 
phân bỗ x2 với m và n bậc tự do tương ứng. Khi đó phân bỗ xác suắt 
của biến ngẫu nhiên 


2 2 
Fụy¿,= XHỈ _ RXm (5.46) 


Xa“m — Xã 








được gọi là phân bỗ E với mm và n bậc tự do. 


Kiểm định dùng phân bố E để so sánh độ lệch chuẩn gọi là kiểm 
định E. Ta giả sử rằng X và Y có phân bố normal với độ lệch chuẩn 
ơi và ơa tương ứng. Giả thuyết Họ là ơi = ơa Gọi S? và %2 là các 
hàm phương sai mẫu hiệu chỉnh của X và Y với cõ thực nghiệm øw¡ 
và n2 tương ứng. Nếu ơi = ơø› thì S?/S2 có phân bố F với mø¡ — 1 và 
z2 — 1 bậc tự do. 


Ghỉ chú 5.8. Phân bô E được gọi như vậy là theo chữ cái đầu của tên 
của Ronald Eisher. Kiểm định F chỉ thích hợp khi các phân bô của X 
và Y là normal hoặc rất gần giống normal (nó không được “robust” 
lắm, khi phân bố chệch đi khỏi normal). 


Ví dụ 5.20. (Cách đo lường nào chính xác hơn). Giả sử có hai cách 
đo hàm lượng chất arsenic trong đất. Mỗi cách được thử 10 lần (cho 
cùng một chỗ đất), với các kết quả như sau (ppm có nghĩa là parts- 


per-million, tỷ lệ tính theo phần triệu): 
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Cách | Trung bình (ppm) | Độ lệch chuẩn mẫu hiệu chỉnh (ppm) 
I z7 0.6 
I 7.9 1.2 




















Phương pháp nào có độ lệch chuẩn thấp hơn thì được coi là phương 
pháp đo có độ chính xác cao hơn. Ta muôn kiểm định xem có đủ 
chứng có để coi rằng phương pháp I chính xác hơn phương pháp 
II không. Giá trị của thông kê #' ở đây là (0.8)2/(1.2)? = 0.4444. 
Các sô bậc tự do là 10 — 1 = 9 và 10 — 1 = 9. Tra máy tính, ta có 
P(Ffgsos < 0.4444) + 12%, là một con sô nhỏ, nhưng chưa đủ nhỏ 
để loại bỏ giả thuyết Họ (là hai phương pháp có độ chính xác như 


nhau), cần thí nghiệm thêm. 


Công thức để tính hàm mật độ của các phân bô F như sau. Nó có 


thể được suy ra từ công thức hàm mật độ cho các phân bô x2. 


Định lý 5.8. Phân bố F với m và n bậc tự do có hàm mật độ sau: 








0 nếu # <0 
NT EHI= „(m/2)—1 › (5.47) 
Tứng +n)(m+n)/2 nêu z > 0, 
trong đó 
m/2„n/2 
_ T((m + n)/2)m "2n | (5.48) 
Pứn/2)E@n/2) 


5.5 Kiểm định xy? 


Kiểm định ki bình phương (¿2 test) là kiểm định thường được 


dùng để kiểm tra một giả thuyết về tính đúng đắn (goodness-of-fit) 
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một mô hình xác suất với hữu hạn các sự kiện thành phần Q = 
{Ai,4s.,.... A,}. (Khi không gian xác suất là vô hạn, thì người ta 
chia nó ra theo một phân hoạch hữu hạn để dùng kiểm định này). 
Giả thuyết Họ ở đây có thể hiểu là các xác suất P(4,), ¡ = 1,...,s, 
phải bằng các số p; nào đó (hoặc thỏa mãn các điều kiện gì đó) cho 
bởi mô hình. Thay vì kiểm định từng giả thuyết P(A;) = p¡ cho từng 
sự kiện thành phần (tức là phải làm s kiểm định), ta sẽ làm một kiểm 
định chung cho toàn bộ mô hình xác suất. 

Mẫu thực nghiệm ở đây là một dãy nñ kết quả, mỗi kết quả có 
dạng “xảy ra sự kiện 4;”. Ta gọi n; là số lần xảy ra 4; trong mẫu. 
Di =ñ Số n; có thể hiểu là một giá trị thực nghiệm của biên 
ngẫu nhiên N; = “số lần xảy ra 4; trong ø lần thử nghiệm”. Để cho 
dễ hiểu, ta sẽ phân biệt hai trường hợp: 1) Các xác suất p; là cô định 
và được cho trước trong mô hình; 2) Mô hình xác suất phụ thuộc k 
tham số nào đó (ví dụ như mô hình phân bô Poisson phụ thuộc tham 
sô A), các tham số đó được ước lượng từ mẫu thực nghiệm, và các 


xác suất p; được xác định từ các tham số đó. 


5.5.1 Trường hợp mô hình xác suất cô định 


Theo định lý Pearson khi na đủ lớn , phân phôi xác suất của 


biên ngâầu nhiên 





(Mi — P(A)m)? 
>- P(Ä)n (5.49) 


có thể xấp xỉ bằng phân phối x2 với s — 1 bậc tự do, với sai số đủ 
nhỏ có thể bỏ qua. (Nhắc lại rằng, phân phối x2 với s — 1 bậc tự do 


là phân phôi xác suât của biên ngâu nhiên xŸ ¡ = Z‡+...+ Z? q, 
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tổng bình phương của s — 1 biến ngẫu nhiên Z; độc lập có cùng phân 
bố normal chuẩn tắc ,V(0, 1)). Giá trị thực nghiệm 


0i = mm)? 
Š=ằẽ= (5.50) 
s=c Địn 
¡=1 
(khi giả sử rằng P(4;) = p; là các sô cho trước trong mô hình) có 
thể coi là một giá trị thực nghiệm của xŸ. ¡. Một cách dễ nhó để viết 


công thức của thông kê €? là: 





: observed; — expected,)7 
+ » ( p ) 


= 5.51 
expected, th 


¡ 
trong đó observed có nghĩa là các giá trị thực nghiệm, còn expected là 
các giá trị kỳ vọng tương ứng (của sô lần xảy ra các sự kiện). 

Vì thông kê $2 là số không âm, và đo độ sai số giữa mô hình phân 
bố xác suắt và phân bố thực nghiệm, nên €2 càng nhỏ thì chứng tỏ mô 
hình càng khớp với thực nghiệm. Nhỏ ở đây là nhỏ so với phân phối 
của x‡2_ ¡. Bởi vậy, nêu P(xỶ._¡ > §2) càng cao thì độ tin tưởng của ta 
vào mô hình (giả thuyết Tp) càng cao. Nếu P(%x} ¡>3 #?) > o, với œ 
là một số cho trước theo qui ước (thông thường người ta lẫy œ = 5%, 
nhưng cũng có khi lẫy œ = 10% hay 1%) thì giả thuyết Họ được chấp 
nhận, còn nêu P(x‡ ¡ > &2) < o thì người ta chấp nhận đối thuyết 
H:, tức là coi rằng mô hình bị sai. 

Trong thực tế, để tránh sai số quá cao khi áp dụng định lý Pearson, 
người ta thường đòi hỏi cõ ñ của mẫu phải đủ lớn sao cho p¿n > 10 
với mọi ¿ = 1,...,s (hoặc ít ra là với hầu hết các chỉ số ¿). Những 
sự kiện 4; với p;¿ < 10 là những sự kiện “quá hiếm” để có thể kiểm 


định xác suất của chúng bằng kiểm định x2. 
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Ví dụ 5.21. Một người chơi tung xúc sắc. Tung một con xúc sắc 120 
lần, trong đó có 35 lần hiện lên số 6. Hỏi có sự “thiên vị số 6” (chẳng 
hạn có sự gian lận, hay quân xúc sắc không cân bằng) ở đây không, 
hay là sô 6 hiện lên nhiều là hoàn toàn do ngẫu nhiên? 

Mô hình xác suất ở đây gồm hai sự kiện: A = hiện lên số 6, với 
xác suất (nêu giả sử không có thiên vị) là 1/6, và A = hiện lên số 
khác 6, với xác suất 5/6. Số lần thực nghiệm hiện lên 6 là 35 so với 
kỳ vọng là 120/6 = 20, còn số lần hiện lên khác 6 là 120 — 35 = 85 so 
với kỳ vọng là 100. Thông kê $2 ở đây là: 

„  (35— 20)? (85 — 100)? 


s = — 1 S 
* 20 100 sạU 





Ta có P(x‡ > 13,5) < 1%. Như vậy giả thuyết /ọ bị loại bỏ, và đôi 


thuyết “số 6 được thiên vị” được chấp thuận. 


Tất nhiên, ví dụ trên rất đơn giản, với sô bậc tự đo là 1, và thay vì 
làm kiểm định ki bình phương, ta có thể làm kiểm định Z cho xác suất 
của sự kiện hiện lên số 6, cũng sẽ ra kết quả tương đương. Nhưng nêu 
thay vì chỉ kiểm định xem số 6 có được thiên vị không, ta muốn kiểm 
định cùng một lúc tất cả các số của xúc sắc xem có sô nào được thiên 


vị không, thì nói chung sẽ phải dùng đến ki bình phương. 


Ví dụ 5.22. Một người tung xúc sắc 120 lần, có 28 lần hiện số 1, 14 
lần hiện số 2, 26 lần hiện số 3, 18 lần hiện số 4, 15 lần hiện số 5, 19 
lần hiện số 6. Hỏi rằng xúc sắc có “cân bằng” không? Giả thuyết “cân 
bằng” Họ ở đây là xác suất hiện lên mỗi sô trong mỗi lần tung đều 
là 1/6. Kỳ vọng sô lần hiện ra mỗi số trong 120 lần tung đều là 20. 
(28-20)? (14-20)2, (26-20)? „ 


2 
20 kẻ 20 " 20 





Thông kê €2? ở đây là: t2 = 
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18—20)?  (15—20)? (19-20)? 
(8 30)? „ (15- 202 , (19- 20) 
20 20 20 

Tra bảng phân phối xác suất của x‡, ta có P(x$ > 8,3) ~ 14%. 





=8,3. 
Con số 14% đủ lớn để chấp nhận giả thuyết 7/7. 


5.5.2 Trường hợp mô hình xác suất được ước lượng theo 
tham số 


Nhắc lại rằng, khi các xác suất ø; = P(4,), ¿ = 1,...,s là được 
cho trước trong mô hình và ta cần kiếm định chúng, thì sô bậc tự do 
của phân bố x2 tương ứng là s — 1. Lý do là vì ta có một ràng buộc 
$„ — Đ¿n 


„ cụ thể là: 
Ðị(1 — Đị)n 


tuyến tính giữa s biên ngẫu nhiên 








2_v»q Tn SG "— =0. (5.52) 


Giới hạn của phân bô xác suất đồng thời của bộ s biến ngẫu nhiên 
này là một phân bố normal s chiều nhưng có rank bằng s— 1 vì có một 
ràng buộc tuyến tính, nên nó có thể nhận được từ phân bố normal 
chuẩn tắc s — 1 chiều qua một phép biên đổi tuyến tính, và bỏi vậy ta 
chỉ có s — 1 bậc tự do. 

Khi các xác suất p; = P(4;), ¡ = 1,...,s không được cho trước 
trong mô hình, mà phụ thuộc vào k tham số 6¡,...,Ø;, nào đó của 
mô hình phân bố xác suất, và k tham số này được ước lượng từ mẫu 
thực nghiệm, thì thay vì 1 ràng buộc tuyến tính, ta có k-+ 1 ràng buộc 


tuyến tính giữa các biến ngẫu nhiên ` ="`ˆ Hả vậy, trong 
Mê = àp 
— ĐT n)? Z 
trường hợp này, phân phối xác suất của `. ——————- (Với k + 1 
Địn 


?„—i 
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điều kiện ràng buộc đó) không tiên tới phân phối xác suất của x‡_ ¡ 
(với s — 1 bậc tự do) nữa, mà tiễn tới phân phối xác suất của sả 
(với s — k — 1 bậc tự do). Khẳng định này có thể được chứng minh 
tương tự như định lý Pearson Bởi vậy, trường hợp khi mà mô 
hình xác suất có k tham số được ước lượng, được kiểm định hoàn 
toàn tương tự như trường hợp không có tham số, nhưng ở bước cuồi 
cùng phải dùng phân phối xác suất x2 với s —  — 1 bậc tự do thay 
vì s— 1 bậc tự do: Nếu P(%x}_.,_-¡ > §?) > ø thì giả thuyết /#ọ được 
chấp nhận, còn nêu EW cử cA }< thi chấp nhận đối thuyết 
Hì. 

Ví dụ 5.23. Chúng ta sẽ kiểm định giả thuyết “số vụ án mạng xảy ra 
ở London hàng ngày tuân theo phân bố Poisson”, dựa theo số liệu 
thống kê trong ví du|5.4| Ta có bảng thông kê sau: 





? 0 1 2 13 |4 
mø% || 713 |299 | 66 |16 |1 
































trong đó n; là sô ngày xảy ra ¡ án mạng trong vòng 3 năm, từ 04/2004 
đến 03/2007. Tổng sô ngày ở đây là 713 + 299 + 66 + 16 + 1 = 1095 
ngày. 

Trước hết ta ước lượng tham sô À của phân bố Poisson trong giả 


thuyết. Nêu X là biến ngẫu nhiên tuân theo phân phôi Poisson với 











tham số À, thì A = E(X). Bởi vậy ta ước lượng A bằng kỳ vọng của 





mẫu thực nghiệm: 


Ac XE =pm _ 1 
S3? my - 1095 











(0x713-+1x299--2x66+3x16+4x1) œ 0,4411. 
Gọi pọ; là xác suất của sự kiện “trong ngày có ¿ vụ giết người” theo 
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mô hình phân phối Poisson với tham số A. Khi đó 
øœ = (0,4411)/e-944 2| ¿— 0,1,2,.. 


Việc ước lượng À (và qua đó øo;) như trên tạo thêm một ràng buộc 
&_ vư ^ ⁄ ;Á Ấ :A ¿ — P0i' xã 
tuyên tính sau đây cho các biên ngâu nhiên =1... ngoài 
pu¿(1 — Đụ¡)n 
ràng buộc cho bởi phương trình (5.52), cụ thể là: 


o ¬. =Ú. 


Nhân ø = 109ð với pg¡, ta được bảng sau, với các giá trị kỳ vọng no; 


về sô ngày có ¡ vụ giết người trong vòng 3 năm: ta được bảng sau: 





? 0 1 2 >ỏ 
m?o; || 704,44 | 310,73 | 68,53 | 11,28 





























Ỏ bảng trên, ta gộp các số các sô øøọ;,¿ > 3, lại với nhau, để được 
một giá trị lớn hơn 10 (các sô bắt đầu từ œpox trở đi quá nhỏ: npọx4 ~ 
1,1, mpos 0,1, mpọs < 0,01,...). Tức là ta sẽ kiểm định mô hình 
phân bố Poisson đơn giản hóa, với chỉ có 4 sự kiện thành phần, ứng 
với sô vụ giết người trong ngày như sau: 0,1,2, > 3. 

Giá trị của thông kê £? ở đây là: 


.›_.. (713- 704,44)”, (299-— 310,73)” 








X "04.44 | 310, 73 
_ 2 _. 2 
(66 - 68,58)”, (17- 11.28 2v. 
68, 53 11,28 


Vì trong mô hình phân bố xác suất có ¿ = 1 tham sô được tính 
bằng ước lượng (tham số À), nên phân bố xác suất x2 cần dùng ở đây 
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có sô bậc tự do bằng 4— 1 — 1 = 2. Ta có 
P(V/)> 7X) P(Ú( = 3.54) 1%, 


là con sô khá lớn (lớn hơn 10%). Bởi vậy giả thuyết /ạ (rằng số vụ 


án mạng hàng ngày tuân theo phân bố Poisson) được chấp nhận. 


5.5.3. Kiểm định x? cho sự độc lập 


Khi ta muốn kiểm tra xem hai sự kiện hay hai biến ngẫu nhiên 
nào đó có độc lập với nhau không, ta cũng có thể dùng x?. Chẳng 
hạn, giả sử ta có biến ngẫu nhiên X nhận rm giá trị z\,...,z„„, và 
biến ngẫu nhiên Y nhận ø giá trị g\..... „. Giả thuyết Hạ: X độc 
lãP với: có: neHla, đã) z= Ff(X = #uÝ' = gi) = P@:= 
z)P(Y = ¡) với mọi ¿, j. Mô hình gian xác suất ở đây có z»n phần 
tử (X = z;,Y = y). Mô hình xác suất ở đây có zn + œ — 2 tham 
số, có nghĩa là nếu ta ước lượng được m + n — 2 giá trị P(X = 
z1),..., P(X = z„_1),P(Y =i)...., P(Y = ¿—¡), thì ta biết được 
toàn bộ phân bố xác suất của không gian xác suất (nêu chấp nhận 
giả thuyết P(X = z¡,Y = 1) = P(X = z¡)P(Y = g¿) với mọi ¿, j). 
Bỏi vậy, sô bậc tự do của phân bố x2 cần dùng trong kiểm định giả 


thuyết Họ ở đây là: mn — (m + n — 9) — 1= (m — 1)(n — 1). 








Ví dụ 5.24. Người ta muốn kiểm định xem độ tuổi của người có ảnh 
hưởng đến khuynh hướng chính trị không. Để đơn giản, trong ví dụ 
này ta chia các khuynh hướng chính trị ra làm 3 khuynh hướng: phái 
tả, phái hữu, và trung lập. Và ta cũng chia các độ tuổi ra làm 3: dưới 


30 tuổi, từ 30 đến 50, và trên 50 tuổi. Bảng sau là một bảng thông 
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5.5. Kiểm định x2 


kê thăm dò khuynh hướng của 500 người được chọn một cách ngẫu 




















nhiên: 
Tuổi Khuynh hướng | Phái tả Phái hữu | Trung lập | Tổng 
Dưới 30 45 35 38 118 
30 đến 50 62 60 95 217 
Trên 50 48 49 68 165 
Tổng 155 144 201 500 


























Giả sử độ tuổi và khuynh hướng chính trị độc lập với nhau. Khi đó, 

dựa vào các số tổng trong bảng trên, ước lượng kỳ vọng của sô người 

dưới 30 tuổi theo phái tả trong số 500 người sẽ là 155 x 118/500 = 
36, 58, và tương tự như vậy cho các ô khác. Thông kê ý? ở đây là: 

„2 _ (đỗ 36, 58)? ý (63 — 67,27)? | (48 — 51,15)? 

36, 58 67,27 51, 15 

(35 — 33,984)^ (60— 62,496)”. (49-— 47,52)” 

33, 984 62, 496 47,52 

(38 — 47,436)”, (95-— 87,23), (68-— 66,33)? 


47, 436 87,23 66, 33 








^ 5,329. 





Số bậc tự do ở đây là (mm — 1)(n — 1) = (3— 1)(3 — 1) = 4. Ta có 
P(x) > 5,329) > 25%. Như vậy ta chấp nhận giả thiết /ạ: độ tuổi 
không ảnh hưởng (đáng kể) tới khuynh hướng chính trị. 

Bài tập 5.17. (Sinh viên nữ có bị kỳ thị?). Một điều tra năm 1975 ỏ 
một trường đại học hàng đầu trên thế giới về sô sinh viên nam và nữ 
xin học và được nhận vào học các chương trình sau đại học ở 3 khoa 


lớn nhất trường cho kết quả thông kê sau: 
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Được nhận | Bị từ chối 
Nam 526 550 
Nữ 313 698 




















Hãy kiểm định xem có đủ cơ sở thông kê để nói rằng sinh viên nữ 


khó được nhận vào học sau đại học hơn so với sinh viên nam không? 


5.6 Phân tích hồi qui 


Hồi qui (regression) là phương pháp thống kê toán học để ước 
lượng và kiểm định các quan hệ giữa các biên ngẫu nhiên, và có thể 
từ đó đưa ra các dự báo. Các quan hệ ỏ đây được viết dưới dạng các 
hàm số hay phương trình. 


Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y, mà ta 


muốn ước lượng xắp xỉ dưới đạng một hàm số Ƒ(X\...., X„) của các 
biến ngẫu nhiên X\,..., X, khác (gọi là các biến điều khiển (control 


variables), hay còn gọi là biến tự do (tiếng Anh gọi là independent 
variables, nhưng không có nghĩa đây là một bộ biên ngẫu nhiên độc 
lập), trong khi Y được gọi là biến phụ thuộc (dependent variable)), 
tức là khi ta có các giá trị của Xì,..., Xs, thì ta muôn từ đó ước lượng 
được giá trị của Y. Hàm số Ƒ' này có thể phụ thuộc vào một số tham 


sô Ø = (0:,..., 0) nào đó. Ta có thể viết Y như sau: 
V = R(ẨHoacvÄ 2) *ẽ (5.53) 


trong đó c là phân sai sô (cũng là một biên ngâu nhiên). Ta muôn 


chọn hàm #' một cách thích hợp nhất có thể (phụ thuộc vào từng lớp 
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bài toán cụ thể), và các tham số Ø, sao cho sai sô c là nhỏ nhất có 
thể. Thông thường, người ta đo độ to nhỏ của sai số bằng chuẩn L„¿ 
(sai số trung bình bình phương). Có nghĩa là, ta muôn chọn Ø sao 


cho I#(|e|2) là nhỏ nhất có thể. Đại lượng 


= 
l( 


được gọi là sai sô chuẩn (standard error) của mô hình hồi qui. Mô 
































<2) (5.54) 


hình nào mà có sai số chuẩn càng thấp thì được coi là càng chính xác. 

Mô hình đơn giản nhất là mô hình tuyến tính với một biến điều 
khiển: Ƒ(X) = aX + b, với a và b là hằng sô. Việc tìm a, b rồi ước 
lượng Y bởi hàm tuyến tính aX + b được gọi là hồi qui tuyên tính 
đơn, mà ta đã gặp trong Chương |3| Mục |a.4.3| Hồi qui tuyến tính 
thích hợp trong một số trường hợp, khi các biến ngẫu nhiên phải có 
quan hệ tuyên tính nào đó với nhau về mặt lý thuyết. Chẳng hạn, sự 
phụ thuộc của giá nhà vào diện tích nhà (không kể đến các yêu tô 
khác) có thể coi là tuyến tính, vì ta có thể hình dung là 1 cái nhà to có 
thể chia làm hai cái nhà nhỏ bằng một nửa. Thế nhưng trọng lượng 
của quả táo không phụ thuộc tuyên tính vào đường kính của nó, mà 
phụ thuộc tuyên tính vào lập phương của đường kính của nó thì hợp 
lý hơn. Hay dân số của Việt Nam thay đổi hàng năm cũng không theo 
kiểu tuyến tính. Bởi vậy, việc chọn lựa hàm 7 sao cho thích hợp (dựa 
trên các lý thuyết nào đó) là quan trọng khi áp dụng phương pháp 
hồi qui. Một khi đã có định một lóp hàm Ƒÿ¿ hợp lý, giá trị của Ø hợp 
lý nhất sẽ là giá trị sao cho JE((Y — Fs(Xi...., X,))2) là nhỏ nhất. 
Như vậy, trong nhiều trường hợp, bài toán hồi qui được đưa về vẫn 
để tìm cực trị: tìm Ø sao cho #((Y — F¿(X:,..., X,))2) nhỏ nhất. 




















Nhắc lại rằng, trong thực tế, vì ta không biết chính xác phân bố 


269 


Chương 5. Thống kê toán học 


xác suât đồng thời của các biến X; và Y, mà chỉ biết một phân bố 
thực nghiệm nào đó thông qua một số số liệu kết quả thực nghiệm, 
nên ta sẽ thay (ước lượng) các không gian xác suất bởi các không 


gian xác suất thực nghiệm. 


5.6.1 Hồi qui tuyên tính đơn 


Hồi qui tuyên tính đơn đã được nhắc tới trong Mục |a.4.3| Giả 
sử hai biến ngẫu nhiên X,Y hợp thành vector ngẫu nhiên 2 chiều 
(X,Y), với các giá trị thực nghiệm (z.\),..., („„ „). Ta muôn viết 


Y dưới dạng hàm tuyến tính của X, 


Y=aX+~+b+c (5.55) 











với sai số bình phương IE(|e|?) nhỏ nhất (a, b là hằng số còn sai số c 





là biến ngẫu nhiên). Ta sẽ tìm a,b sao cho sai sô thực nghiệm bìng 
phương (sai số trung bình bình phương) S21 |e|2/n là nhỏ nhất, 
trong đó e¡ = ¿ — az; — b là các sai số thực nghiệm. Gọi vector với 
phân bô thực nghiệm cho bởi các cặp số (z,¡)...., („. „) này là 
(X,Y'). Khi đó công thức sẽ là (xem Mục|3.4.3): 











s— cou(X,Ÿ) — 2 „(1¿ — ®)(Mi — ) 
” 0ar{( X) ă ` nu niên 
và 
=ÿ~ a# = E(Ý) - aE(X), (5.57) 




















trong đó # = (Ề}z;)/n và  = (Ề)1¡)/n là các giá trị kỳ vọng thực 
nghiệm. Bình phương của hệ số tương quan thực nghiệm, 
2 cou(X,Y)2 


0ar(X)uar(Y) 
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là số đo độ chính xác của hồi qui tuyên tính trên mẫu thực nghiệm: 
nêu #2 = 1 thì $`”, |e|? = 0, tức là không có sai sô. Trong trường 
hợp tổng quát, ta có 

„  0ar(œX + b) " oar(Ÿ) — (1/n) $3, ‡ 


R?ˆ= : = = : (5.59) 
0ar(Y) 0uar(Y) 





và tức là /?2 càng gần 1, thì tổng sai số bình phương Š`. c? càng nhỏ. 
Ví dụ, khi R2 = 0.9, thì độ sai số chuẩn (căn bậc hai của sai số trung 
bình bình phương) bằng v1 — R2 0.32 lần độ lệch chuẩn (thực 
nghiệm) của Y. Nếu giả sử độ lệch chuẩn của Y bằng 1/4 giá trị 
trung bình của Y, thì tức là hồi qui tuyến tính trong trường hợp này 
sẽ có sai sô c vào quãng 32% /4 = 8% giá trị của Y. 

Khi đã có phương trình hồi qui tuyến tính đơn Y = aX +b+c, 
thì với mỗi giá trị của X ta có một ước lượng Ý cho giá trị tương 
ứng của Y theo công thức Ÿ = aX + ö. Giống như các bài toán ước 
lượng được bàn ở phía trước, có thể tính khoảng tin cậy và độ tin 
cậy của ước lượng này. Khi #2 gần 1, và X nằm trong đoạn thẳng 
[min z;, maxz;] thì ước lượng này có độ chính xác cao (khoảng tin 
cậy hẹp) còn ngược lại thì độ chính xác thấp. Chúng ta sẽ không đi 


vào chỉ tiết ở đây. 


5.6.2 Hồi qui tuyến tính bội 


Trong hồi qui tuyến tính bội, ta muốn tìm tham số Ø = (6ạ,.... 6;), 
sao cho khi đặt 
8 
Y=6p+Ồ 6X; +e (5.60) 
¿=1 
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trong đó X; và Y là các biến ngẫu nhiên cho trước, thì sai số trung 
bình bình phương 'E(|e|?) là nhỏ nhất. 














Để cho tiện, ta sẽ đặt Xọ = 1 và coi đó như là một biến ngẫu 


nhiên (có giá trị luôn bằng 1), và việt 


8 
Y =Ò 0X; +. (5.61) 
¡=0 
Ta sẽ giả sử rằng các biên ngẫu nhiên X;,¿ = 0...., s là độc lập tuyên 


tính với nhau (không có biến nào có thể viết được dưới dạng một 
tổ hợp tuyến tính của các biến khác), vì nêu chúng phụ thuộc tuyên 
tính, thì ta có thể loại bót một số biến đi. 


Không gian các biên ngâu nhiên (trên cùng một không gian xác 














suất ban đầu) với tích vô hướng (X, Y) := E(XY) là một không gian 
(tiền) Hilbert. Bởi vậy biến ngẫu nhiên Ÿ = 3 gi Xã nằm trên 
không gian con s + 1 chiều ƒ = R(Xọ,..., X;) sinh bởi Xọ,... X;, 
sao cho chuẩn bình phương ||Y — Ÿ ||? := E(|Y — Ÿ |?) nhỏ nhất, chính 


là ảnh của phép chiêu vuông góc từ Y lên trên không gian con V này. 














Nói cách khác, các tham số 0; cần thỏa mãn hệ phương trình tuyên 
tính sau: 


(—À 0,X¡,X;) =0 Vj=0,1,...,5, (5.62) 
=0 


hay có thể viết là 
3.0 (Xi, Xj =0 Xi) Vj =U 2s (5.63) 
=0 


Nghiệm duy nhất của hệ phương trình này là: 


(6o... = ((Œ X2) E0) Á((/Xj))j-o.à. — (6/69 
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5.6.3 Hồi qui phi tuyến 


Hồi qui phi tuyến là khi hàm hồi qui # không phải là hàm tuyến 
tính của các biên X;. Tuy nhiên, trong nhiều trường hợp, bằng cách 
đổi biên, ta có thể đưa bài toán hồi qui phi tuyến về bài toán hồi qui 
tuyến tính bội. Ví dụ, giả sử hàm #' là hàm đa thức bậc 3 một biến: 
F(X) =aX3+bX”+cX+d. Khi đó, đặt Xị — X, Xa = X?, Xã: = XỶ, 
ta đưa bài toán này về trường hợp hồi qui tuyến tính với ba biên điều 
khiển X\, Xa, Xs. Các biến điều khiển này tật nhiên là phụ thuộc vào 
nhau, nhưng chúng độc lập tuyến tính với nhau, bởi vậy có thể dùng 
nguyên tắc giải bài toán hồi qui tuyên tính bội như trong mục phía 
trên. Trong trường hợp chung, khi mà không đưa được về mô hình 
tuyến tính, việc tính toán có thể phức tạp hơn, nhưng các chương 
trình máy tính sẽ giúp chúng ta tìm được các tham số tốt nhất, và 
kiểm tra mức độ sai sô của mô hình. 

Ví dụ 5.25. Chúng ta sẽ thử áp dụng một số mô hình hồi qui vào việc 
lước lượng giá của các xe ô tô BMW 320 cũ bán ở Pháp vào 11/2009. 
Gía của xe phụ thuộc vào nhiều yếu tố: tuổi của xe, sô km đã chạy, 
kiểu dáng xe, tiện nghi trong xe, sự bảo hành, các phụ tùng đã thay 
thế, v.v. Ở đây, để đơn giản, ta sẽ chỉ ước lượng giá xe theo hai biến: 
tuổi của xe và sô km đã chạy. Tắt nhiên ước lượng như vậy sẽ có sai 
sô cao, và muôn ước lượng chính xác hơn phải thêm các biến khác. 
Bảng sau đây là giá bán (tính theo nghìn euro) của 60 chiếc BMW cũ 
tại thời điểm 08/11/2009, cùng với tuổi của xe (tính theo số năm) 


và quãng đường đã chạy (tính theo nghìn km): 


0bs price age đistance 
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1 31.0 Ai 24 

2 12.5 5 115 

3 15.5 6 80 

4 6.7 9 195 

5 30.0 2 53 

6 21.0 3 52 

ĩ 18.5 3 75 

8 .6 10 126 

9 .0 T7 138 
10 18.0 5 70 
11 11.0 5 150 
12 13.0 5 156 
13 11.0 8 124 
14 9.0 T7 180 
15 8.0 8 143 
16 12.0 8 97 
17 17.5 4 100 
18 7.0 8 200 
19 20.0 4 80 
20 6.0 8 230 
21 15.3 5 109 
22 23.0 3 37 
23 .5 13 130 
24 7.0 8 180 
25 24.5 2 25 
26 12.5 5 142 
27 15.0 5 70 
28 7.0 t 166 
29 24.0 2 45 
30 11.5 6 146 
31 23.5 3 55 
32 V22 8 245 
33 29.0 1 13 
34 9.9 8 188 
35 33.0 0 10 
36 14.3 5 90 
37 17.5 3 101 
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38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 


12. 


11. 
17. 
13. 
19. 


13. 
11. 


13. 
14. 
15. 


0 Ơ tO CC Ơơ Ơ Ơ Ớ C C ©œ 0 C C CƠ (CO 6Ð Ơ ƠI CC Ơ Ơ CC 


œ Ơ ¬I 03 0 œ 


A1 # ƠI 0 ƠI ¬ œ@ Ơ 


= —> —> 
ŒƠ tO © ¬i ©Ơœ 


{‹© ¬I mè œ Ơn 


14 
16 


11 


182 
223 
124 
101 

r3 

61 
216 
246 
135 
105 
145 

r8 


86 

73 
130 
161 
175 
165 
126 
258 
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Mô hình thứ nhất là mô hình hồi qui tuyến tính đơn, của giá theo 


tuổi: price = a + b.age. Máy tính cho kết quả sau: 


estimated_price + 24.69 — 1.78 x age, 


(5.65) 


với sai sô chuẩn bằng 3.78 (so với giá trung bình của xe là 13.03). Sai 


sô chuẩn như vậy là rất cao so với giá trung bình (3.78/13.03 29%). 


Rõ ràng mô hình này không được tốt, vì chẳng hạn nó cho ước lượng 


giá âm cho những xe trên 14 tuổi, trong khi những xe đó vẫn có giá 


dương mắy nghìn euro. 
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price versus age (with least squares fit) 




















35 T T T T T T 
Y = 34.72 * œ(pb(- 0.175*X) 
Y= 24.7 -1.78X 
+ 
30 Ƒ + 
25 
‡ 
20 Ƒ 
+ ‡ # 
+ 
œ 
+ + 
8 15E Š 
= _ 
+ 
+ + 
10 Ƒ 
+ + 
+ 
sÍ + 
vự + 
0 ÈE 
5 +L +L +L L L L +L 
0 2 4 6 8 10 12 14 
age 


Hình 5.6: Mô hình hồi qui tuyên tính đơn và phi tuyên đơn cho giá 
xe BMW 


Mô hình thứ hai là mô hình phi tuyên đơn: price = a. exp(b.age). 
Theo mô hình này, giá của xe giảm theo tuổi, không theo cấp số cộng 


mà theo cấp số nhân. Máy tính cho kết quả sau: 
estimated_price + 34.72 x exp(—0.175 x age), (5.66) 


với sai số chuẩn là 2.36. Sai số chuẩn này đã giảm đáng kể so với mô 
hình tuyến tính (từ 3.78 xuông còn 2.36), và hơn nữa mô hình này 


hợp lý hơn về mặt logic, vì giá của xe được đem bán luôn là số đương 
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(xe nào hết giá trị, thì người ta vứt vào bãi thải xe, không còn đem 
bán nữa). 

Mô hình thứ ba là tuyên tính đơn theo quãng đường đã chạy: 
price = ø + b.distance. Máy tính cho kết quả: 


estimated_price ~ 25.05 — 0.096 x distance, (5.67) 


với sai số chuẩn là 4.08. Mô hình này còn tôi hơn là mô hình hồi qui 
tuyên tính đơn theo biên tuổi của xe. 

Mô hình thứ tư là tuyên tính bội, theo tuổi của xe và quãng đường 
đã chay. Máy tính cho kết quả: 


estimated_price + 27.50 — 0.0557 x distance — 1.146 x age, (5.68) 


với sai số chuẩn là 2.60. Mô hình này tất nhiên tốt hơn cả hai mô 
hình hồi qui tuyến tính đơn phía trên, nhưng sai số của nó vẫn cao 
hơn là mô hình phi tuyên đơn. Lý do khá hiển nhiên: sự phụ thuộc 
của giá xe vào tuổi là phi tuyên. 

Mô hình thứ năm là kết hợp của mô hình thứ hai và thứ ba: phi 
tuyến theo tuổi cộng thêm một phần tuyến tính theo quãng đường 


đã chạy. Máy tính cho kết quả sau: 


estimated_price 31.58 x exp(—0.1075 x age) — 0.0297 x distance, 
(5.69) 
với sai số chuẩn là 2.07. Mô hình này chính xác hơn cả 4 mô hình 


phía trước. 


Mô hình thứ sáu là điều chỉnh của mô hình thứ năm. Ta sẽ thay 


biến quãng đường đã chạy bằng một biến mới, gọi là attrition (hao 
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mòn): : 

attrition = Hee n5 -10. (5.70) 
Ý tưởng là, các xe nói chung chạy ít ra 10 nghìn km một năm. Mức 
10 nghìn km một nãm được coi là mức với độ hao mòn thấp, và với 
độ hao mòn đó thì giá xe giảm theo cập số nhân. Nếu chạy trên 10 
nghìn km một năm, thì độ hao mòn cao hơn mức thấp, và giá của xe 


giảm thêm đi. Máy tính cho kết quả: 


estimated_price ~ 35.83 x exp(—0.1468 x age) — 0.2815 x attrition, 
(5.71) 
với sai số chuẩn là 1.70, tốt hơn nhiều so với các mô hình trước. Có 
thể xây dựng thêm những mô hình khác hợp lý và chính xác hơn nữa, 
nhưng chúng ta sẽ tạm dừng ỏ đây. 
Bài tập 5.18. Hãy lây những bảng số liệu thông kê có thực bắt kỳ nào 
đó (chẳng hạn như những bảng số liệu thông kê đi kèm theo chương 
trình gretl, hoặc là những bảng số liệu thông kê từ rât nhiều nguồn 
khác nhau trên internet), rồi thử làm phân tích hồi quy tuyến tính 


đơn, tuyên tính bội, và phi tuyến với chúng. 
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Phụ lục A 
Lời giải cho một sô bài tập 
1.1 Lời giải bài tập Chương 1 


Bài tập 1.1. 3/ > 3: Hiển nhiên. 

3= 3: Đặt ' = (AUP)\A. Khi đó An = Ø và AUB = AUĐ.. 
Suy ra P(AU B) = P(AU P') = P(A) + P(Đ'). Kết hợp với P(B) = 
P(P) + P(AnĐ) ta được P(AU B) = P(A) + P(P) —- P(An B). 
Bài tập 1.2. Áp dụng tiên để 3 ta có P(AU BUØ) = P(AU B) + 
P(Œ) - P((AU B)nŒ) 
= P(A) + P(P) - P(An B) + P(C) - P((An(C)U(Bn0)) 
= P(A)+P(B) + P(C)— P(AnB)— P(BnŒ)— P(Œn4A)+P((An 
ØŒ)n(BnO@)) 
= P(A)+P(B)+P(C)— P(AnB)— P(BnŒC)—P(Œn4)+P(AnBn(Œ). 


Bằng quy nạp ta có thể chứng minh được rằng 
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P((J Á¡j) = S` P(A) =3 _P(4n4;)+ 3” P(4n4;n As) — 


¿=1 ¿=1 i2) i⁄jzk 
T 


..+(=1®-1P(( 4). 


¿=1 
Bài tập 1.3. Có n! cách xếp ø bạn thành một hàng đọc, trong đó có 


(n — 1)! cách xếp để Vôva ở ngay sau Lily. Như vậy xác suất để Vôva 
(a—1)! 1 





ỏ ngay sau Lily trong hàng là 
?: + 


Có thể giải cách khác như sau. Xác suất để Vôva không đứng đầu 
hàng là (m — 1)/n. Khi Vôva đứng đầu hàng thì không thể đứng sang 
Lily, còn khi Vôva không đứng đầu hàng, thì xác suất để Lily đứng 
ngay trước Vôva là 1/(n — 1) (vì trong œ — 1 vị trí còn lại thì có 1 vị 
trí là ngay trước Vôva). Bỏi vậy xác suất để Vôva đứng ngay sau Lily 
là: (» — 1)/n x 1/(n — 1) = l/n. 

Bài tập 1.4. Gọi O là không gian mẫu, 4 là biến cô có hai người 
trong nhóm viết tên của nhau. Ta có |O| = 4 = 1024, |A| = C?.43 — 
C‡.C?.4 = 520. (Đầu tiên chọn ra hai người trong nhóm viết tên của 
nhau, 3 người còn lại viết tên một người bắt kỳ trong nhóm, như vậy 
những cách viết tên mà có hai cặp trong nhóm viết tên của nhau đã 
được tính hai lần). Xác suất để có hai người trong nhóm viết tên của 


Ạ 
nhấu lš:Ê4j<= h = T 


Bài tập 1.5. Gọi O là không gian mẫu, A/ là biến có đội A gặp đội 
B trong giải, Mĩ, Ma, A7; lần lượt là các biến cô đội A gặp đội Ð ở 
vòng 1, vòng 2, vòng 3. Ta có P(M/) = P(MI) + P(M2) + P(M), với 
P(M)) = =: |O| = C&.6! = 28.6!. (Gó Cÿ cách chọn hai đội ở vòng 
chung kết, 6.5 cách chọn hai đội bị thua ởỏ vòng 2 và 4.3.2.1 cách 
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chọn 4 đội bị thua ở vòng 1). |Ä⁄4| = 6! (Có 6.5 cách chọn hai đội bị 
thua 4 và Ö ở vòng 2 và 4.3.2.1 cách chọn 4 đội bị thua ở vòng 1). 
|A/a| = 2.6! (Có 2 cách chọn đội thắng trong trận A— B, 6 cách chọn 
đội gặp A hoặc Đ trong trận chung kết, 5 cách chọn đội thứ hai bị 
thua ở vòng 2 và 4.3.2.1 cách chọn 4 đội bị thua ở vòng 1). Như vậy 
P(Mu) = LỘ = Tạ P(MG) = THỦ = ao, P(M) = ï + Tạ † gg = 
3) 

Có thể giải cách khác như sau. Tổng cộng có C‡ = 28 cặp đội, và 
có 7 trận đâu. Vì các cặp là “bình đẳng”, nên trung bình mỗi cặp có 
7/28 = 1/4 trận đấu (giữa hai đội của cặp đó). Có nghĩa là cặp đội 
A — B cũng có trung bình là 1⁄4 trận đấu, hay nói cách khác, xác 
suất để xảy ra trận đấu giữa A và là 1⁄4. 

Bài tập 1.6. Tính phản xạ và tính đối xứng là hiển nhiên. Ta chứng 
minh tính chất bắc cầu. Giả sử ó : (Ói,¡) — (Óa,Đ) và Ú : 
(Os, 2) —> (Os, Đ;) là các đẳng câu xác suất với ø : ©¡\Ai —> 
Ó2\44a và ý : ©2\B¿ —> ©3\ Ba là các song ánh bảo toàn xác suất, 
ĐỢÓM) = B2) = Đ(H:) = D(B:) = 0. Đặt Á¿ = U(4a), Bị = 
ó~1(B;). Khi đó Pị(B\) = (4s) = 0. Ánh xạ Ủjo ở : ©1\ (4i U 
Bị) —> ©z\ (4s U Bs) là một song ánh bảo toàn xác suất với P(A U 
Bì) = P(AsU B;) = 0. Vậy (O, P¿) và (Ox, P;) đẳng câu xác suất. 
Bài tập 1.7. Xét ánh xạ chiều ớ : (O, Pị) x (O¿, 2) —> (Ôy, Pị) và 
A là một tập P¡ - đo được. Khi đó ø¡ 1(4) = A x 9; là P - đo được 
và P(ð¡!(A)) = P(A x 9a) = P.(1).Ð(0:) = Pị(A). 

Bài tập 1.8. Để kết thúc trận đâu, Nam và Tiến phải chơi ít nhất là 


3 sét và nhiều nhất là 5 sét. Để Nam là người thắng trận thì Nam 
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phải là người thắng set cuối cùng. Xác suất để Nam thắng trận là 








c§-(2) | C$-(2)°-5 _ Ø†-(2)%-(2} = 0431744. 
Bài tập 1.9. P(4|B) = P(BỊA) “TH = “TT © P(A) = 
P(B). 


Bài tập 1.10. Gọi A là biến cô trong 3 con mèo có ít nhật một con 

là mèo cái, biến cô cả 3 con mèo đêu là mèo cái. Ta cần tính 
P(anb P(B 1/2 1 

j.. . ma ˆ= Đua " : nợ „z. 

Bài tập 1.11. 4A, độc lập nên P(A1'18) = P(A).P(Đ). Ta có P(1) = 

P((An8)U(A1n®8)) = P(AnB)+P(AnB) = P(AnB)+P(1).P(Đ). 

Suy ra P(An B) = P(4).(1— P(Đ)) = P(A).P(B). Vậy A và B độc 


lập. 








Bài tập 1.12. Ta lẫy 3 sự kiện A, Ð, C trùng với 3 sự kiện X, Y, Z như 
trong ví dụ 1.18. Ta có P(X) = 1/2, P(Y) = P(Z) = 1/6, P(XnY)= 
1712 TÔ Jin p2) << 12:50 6 )a (2) 10VÝ LÌ2)5= 
1/36 = P(Y).P(Z),P(XnYnZ) =0 # P(X).P(Y n Z). Như vậy 
X độc lập với Y và Z nhưng không độc lập với Y ñ Z. 

Bài tập 1.13. Gọi Œ là sự kiện “quân rút ra đầu tiên là quân cơ”. Ta 

¬ = 12 13, 1339 l1 
P(B) = P(BỊC).P P(BỊC).P = c_. = 

e6 p9) = PỤIG)Ƒ(G)+ F(E|G1Ƒ(Ö) = 51-8 + g1 “ 4 S 
_= P(BỊA). Vậy hai sự kiện A và không độc lập. 

Bài tập 1.14. Gọi 4 là biên cô người được chọn là đàn ông (4 là biến 





cô người được chọn là đàn bà), là biên cô người được chọn là thừa 
cân. Theo công thức xác suất toàn phần P(B8) = P(B|A).P(A) + 
P(B|Ã).P(Ä) = 0.65 x 0.5 + 0.534 x 0.5 = 0.592. 


Bài tập 1.15. Gọi A là biên cô người được chọn là đàn ông, Ø là biến 
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cô người được chọn bị mù màu. Ta có P(B|A) = 0.05, P(B|4) 
0.0025. Xác suât để một người mù màu được chọn là đàn ông là 


Â P(BỊA).P(A) l 
P(A|B) = PGIA).P(A)+ P(0|A).P() = 0.9524. 


Bài tập 1.16. Theo định lý 1.4, P(ƒ„) —> 1 khi ø —> œ (k = 
1,2,...,s). Do đó PŒí „) — 0 khi n — œ (k = 1,2,..,s). Suy 
tạ P@\(HZriD/BsF]¿aftffo) =.£(i0052a;xU Ty) < 
P(B§¡) + P(Hj¿) +... + P(H;„) — 0 khi n — cœ. Vậy P(Hj¡ñ 
ng E1zad Ma ø} =‡L KHÍ Ð =3 Ốo 





Bài tập 1.17. Không gian mẫu © gồm một dãy kết quả những lần 
tung, trong đó lần tung cuối cùng thu được mặt ngửa, trong những 


lần tung trước, có hai lần mặt ngửa xuất hiện. 
Q={NNN,SNNN,NSNN,NNSN,SSNNN,.... 


rP Z Ầ ` « Ầ Ầ .ÐA Z + TẢ . HÀ 
Để tung sáu lần thì trong năm lần đầu tiên có hai lần mặt ngửa xuât 


hiện, lần cuối cùng thu được mặt ngửa. Vậy 


2 3 
?(1)=G. §) : 6) : = 0.15625. 


Bài tập 1.18. Gọi © là tập hợp những người mua bảo hiểm trong 
đó, A là tập hợp những người trẻ, là tập hợp đàn ông, Œ là tập 
hợp những người đã có vợ hoặc chồng. Ta có |O| = 20000.|A| = 
6300, || = 9600, |C| = 13800, 4n BỊ = 2700, 8n C| = 6400,|4n 
C| = 2900.,|4n 8n C| = 1100. Xác suất để một người mua bảo 
hiểm của hãng là phụ nữ trẻ độc thân là P(4n 8n Ở) = P(A4\((4n 


B)U(An©@))) = P(A) - P(An B) - P(AnC) + P(An BnŒ) = 
6300 — 2700 — 2900 + 1100 — 0.09 


20000 








283 


Phụ lục A. Lời giải cho một số bài tập 


Bài tập 1.9. Có thể giải thích rằng sau khi có xe bus đến nhà cô B 7,5 
phút thì có xe bus đến nhà cô A. 

Bài tập 1.20. ï) Xác suất để trong 100 lần quay không có lần nào số 
68 trúng giải là (ng) z (0.366. 

1) Dành cho bạn đọc tự làm. 

Bài tập 1.21. Gọi © là không gian mẫu, 4; là biến cô người thứ ¡ 
nhặt được mũ của mình (¿ = 1,2,....n). Ta cần tính P(O\(4U 4zU 
.„U Az)) =1— P(AiU 4¿U...U Aa). 

Ta có P(AiU AaU...U Aa) 

= Đ¡P()— Đ?j—1z„jP(1/ñ4j)+...+(—1)9~*P(4in4an...n An) 
= ¬I(G}.(n ~ 1)!~ Œ?.(n — 2)! +... + (~1)"—1.ŒP.09 











1 —] m=—] 
Vậy xác suât để không có người nào nhặt được mũ của chính mình là 
1 (—1)®-1 1 1 (—1)* ˆỶ 
1-( Tin m J5 s11 nÏ >e ” khim — œ. 
Bài tập 1.22. Đặt B„ = (J?S_„. Am, n = 1,2,... thì Bạ„ = (Tế Bạ. 


Mặt khác Øị Đ Ø; 2 B; 2... nên P(B.„) = lim„ ;„ P(B,). 

j) Vì >9 ¡P(Aa) < œ nên P(Bạ) < »X—„P(A„) —> 0 khi n —> 
œ. Vậy P(B„) = 0. 

iD Nếu tổn tại một dãy vô hạn các 4„ sao cho P(4„) > ‹ thì 
P(B,) > c với mọi n. Vậy P(B.) > c. 
Bài tập 1.23. Gọi A là sự kiện ngăn kéo được rút ra là ngăn kéo chứa 
hai đồng tiền vàng, B là sự kiện đồng tiền rút ra là đồng tiền vàng. 
Ta cần tính P(A|B) = SE E6 BI) = bệ = ế, 

P(P) 1Ì ĐANG: 

Bài tập 1.24. Cai ngục lý luận như vậy là sai. Bài toán này tương tự 
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như bài toán chơi mở cửa có quà ở đầu Chương 1. Trong hai người B 
và C luôn có ít nhất 1 người được thả, và nếu nói tên 1 người được 
thả trong hai người B và C ra, thì xác suất được thả của người còn 
lại trong hai người đó giảm xuống thành 1/3 trong khi xác suất để A 
được thả vẫn giữ nguyên là 2/3. 

Bài tập 1.25. Gọi 4 là biến cỗ một người trong đám đông là kẻ trộm, 
B là biến cổ một người trong đám đông bị máy nghỉ là có tội. Ta 
có P(Ä) = — = ;_,PŒ|A) = 0.85, P(B|Ä) = 0.07, Ta cần tính 


60 30” 
P(A|Đ). Theo công thức Bayes, ta có 
P(BỊA).P(A) 
P(A|B) = — 
MôI P(BỊA).P(A) + P(BỊA).P(A) 
s 0.85 x 1/30 
__ 0.85 x 1/30 + 0.07 x 29/30 





0.295. 





Bài tập 1.26. Gọi X là biến cỗ một con bò bị mắc bệnh bò điên, Y 

là biến cô một con bò phản ứng dương tính với xét nghiệm A. Ta 

có P(Y|X) = 0.7,P(Y|X) = 0.1,P(X) = 1.3 x 10-5. Ta cần tính 
P(Y|X).P(*) 


f(XIF)= pyIx).P(X)+ PWIX).P@): Kết quả là: 





0.7 x 1.3 x 105 
P(XỊY)=  0.000091. 
VI 0.7 x 1.3 x 1075 -+0.1x (1— 1.3. x 10-5) 





Bài tập 1.27. Giả sử {Gz,z+ = 0, 1,2,..., 9} là một họ các sự kiện độc 
lập. Vì giá dầu không thể tăng ít nhất 50% mỗi năm trong 10 năm 
liên tiếp (như thê giá dầu sẽ vượt quá 10 x (1.5)!2 > 300 USD một 
thùng) nên P(G0ñG1ñ1...ñG9) = P(G0).P(G1)... P(G9) = 0. 
Suy ra tổn tại z c {0,1,2,...,9} để P(Gz) = 0. Như vậy nếu coi giá 


dầu biến động một cách ngẫu nhiên và việc giá dầu tăng ít nhất 50% 
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trong một năm là hoàn toàn có thể xảy ra (xác suất lớn hơn 0) thì họ 


các sự kiện trên là không độc lập. 


1.2 Lời giải bài tập Chương 2 
Bài tập 2.2. Hàm mật độ của X: 


(z) 0 nếu |z| > 1 
0x(#) = ì 
1— |z| nêu |z| < 1 


Hàm phân phôi xác suât của X: 


0 nếu z < —1 
(1+z)2/2nễu —1<z<0 
1—(1-z)2/2nêu0< z<1 


1 nêu z> 1 
Biên ngâu nhiên Y = arcsin X có hàm phân phôi: 


0 nêu z < —z/2 
(1+sinz)2/2 nễu — x/2<z<0 
1— (1— sinz)2/2 nêu 0 < z< z/2 


1 nếu z > z/2 


PỤY < z) = P(X <sinz) 


Hàm mật độ của Y là: 


Sỉn # €Os # -L COs # TIỂU ø € [5.0] 
0y (#) = {_ —sinzeosz + cosz+ nêu z € |0, 5] 


0 nếu |z| > z/2 
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Bài tập 2.3. Nếu phân bó xác suất của biên ngẫu nhiên X là đôi xứng 


và liên tục thì ta có 
P(X <z) = P(X < z) = P(—X < z) = P(X > —z) =1—P(X < —z), 


do đó Zx(z) + Zx(—z) = 1. 

Nếu Ƒ' không liên tục, khi đó kết luận trên không còn đúng. Phản 
ví dụ: X có phân bố xác suất tập trung tại z = 0, tức P(X = 0) = 1, 
khi đó: F(z) + F(—z) = 2 với z = 0. 
Bài tập 2.5. Với mỗi  c [0,1], đặt ø(/) = sup{z : y(z) < #}. Ta 
chứng minh: ø() < z© (2z) > . Thật vậy : 





e Giả sử FYy(z) < . Do F liên tục phải nên 3z“ > z sao cho 
ty) < Fy(z) <1 
s>z¿# 8< gùÐ0{r 3s Ry(w} <0} = 0M): 


e Giả sử Fy(z) > ụ. Khi đó z > z với mọi z thỏa mãn FYy(#) < 
= z > sup{z : Fy(z) < } = g(9). 


Ta có Fz(x)(2) = P(g(X) < z) = P(W(¿) > X) = P(X < fv(2)) = 
ty(z) 

(Vì X có phân phôi đều (0,1), (+) = z với mọi z e [0,1].) Hàm ø 
định nghĩa như trên chính là hàm cần tìm. 


Bài tập 2.6. X ~ .V(u,ø?) = hàm mật độ của X: 





Xấy s^.1ÉØ¬e —* => #) = _ Ta có: øy() = NI = 


1 T— z ^ ÂÁ» r? 
——e 15 )g= gÉe 29), Vậy Y có phân phôi chuẩn .V(0, 1). 
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Bài tập 2.7. X ~ £€(À) => hàm mật độ: 


Ae~^* nêu z > 0 
0x() = Á 
0 nều z <0 


1 =cA.6¿>./;XetV<= F0) = tù 


~Àz ⁄ À À Ấ 
nêu ø > 0 =€ ‹ "nềuø >0 
0y (U) = Ệ =Ñ 6 





0 nếu z < 0 0 nếu  < 0 


Vậy Y ~ €(À). 


Bài tập 2.8. Ta có: 


PỊX t,X 
P(X >s+t|A >s) mu, 








PŒ >s) 
—ÀA(s+£) 
ể = 
=:=n =# CÁC 59 0S 2) 


Bài tập 2.9. ¡) Tương tự như bài tập 2.5. 


i) Nếu X ~ (0,1), tức là có hàm mật độ øx(+) = 1 trên đoạn 
thẳng [0, 1], và Y = —ln X ~ £(1) thì hàm mật độ của Y là: 








1 & 
ox(z) —— =z nêu z€ |0, 1] 
Øy (0) — đlnz =—= 1/2 
|, 0 nếu z # [0, 1] 


e”Wu>0 
0Vy <0 
Điều đó có nghĩa là Y có phân bố xác suất mũ £(1). 


288 


1.2. Lời giải bài tập Chương 2 
Bài tập 2.10. X có phân phôi Pareto với tham sô œ và hàm mật độ là 


œ Ạ 
min mngượ 

ĐxÈm—J= C . 
0 nêu z < 1 


T.= 1 '.3cU Xe =jll)=ứ tệ: 

















œ 
mai œ l1 Ạ 
0y(U) = 2x() = TỶ BI: xuan 21 
/ h 
J0) 0 nêu z < 1 
ve nếu z > 1 
0 nều ÿ < Ì 
(Dö#= ụs > 1© z > 1). Vậy Y có phân phôi Pareto với tham số sa 
8 
_ 1 ý 1 
Bai tập 2.11. X ~ 1),Y = ———. Xê€t  = = 
GBETIDE RBICDY Sục EURETC HỆD ca me, 
/ = 
Ta có 
J/()| 0 nếu  < 1 


= Y có phân phối Pareto với tham số œ = 1. 


Bài tập 2.12. Kì vọng lợi nhuận: 
1# =0.7 x (0— 100000) + 0.3 x (1000000 — 100000) = 200000. 


Bài tập 2.13. Điểm cần chú ý khi lẫy ví dụ là, cần cho phân bố xác 


suất chung của X và Y chứ không cho phân bố xác suất của riêng X 
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và riêng Y rồi coi hai biên đó độc lập với nhau. (Nếu chúng độc lập 
thì E(X)E(Y) = E(XY)). Chẳng hạn có thể chọn X và Y là những 
biến ngẫu nhiên nhận hai giá trị 0 và 1, với phân bố xác suất chung 
như sau: P(QÃ =<Ú,Ÿ. =0):<U2/|ÄX .<0ÚY <6I)=01,FP(A = 
1,Y =0) =043,P(X = L,Y = 1) = 0.1 Khi đó E(X) = 0.4,E(Y) = 
0.5,E(XY) = 0.1 # E(X)E(Y) = 0.2. 
















































































Bài tập 2.14. Có 99 quả được đánh số từ 1 đến 99, lẫy ngẫu nhiên 5 
quả, ta có lực lượng của không gian mẫu là |O| = Cặy. Gọi hai biên 
ngẫu nhiên: X là “số nhỏ nhất trên 5 quả bốc được”, Y là “số lớn 
nhất trên 5 quả bốc được”. 


1) Phân bô xác suât của X và Y: 












































xX 1 2] --- 95I|Y 5 6| --- 99 
Cô. [oi | c|IE l5 |C l Gà 





Ví dụ, nêu X = 2 thì có nghĩa là có 1 quả trong 5 quả bóng bốc ra 
là số 2, còn 4 quả còn lại nằm trong các số từ 3 đến 99. Có €4, cách 
chọn 4 số khác nhau trong 97 số từ 3 đến 99, có nghĩa là tập hợp các 
khả năng với X = 2 có Cá, phần tử trong không gian xác suất có C7; 
phần tử với phân bô xác suất đều, do đó ta có P(X = 2) = C8. /Cỗu. 

ii) Công thức 33_„ Cƒ* = C7!" sinh ra từ công thức Œ?*!” = 
C hn  LỂ Th 
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1i) Sử dụng công thức trên, ta có: 


Cấy + 2C$; + - -- + 95C? 

















R(X) = 











Củ 
98 ¡ 97 ủ n 

_ k=4 k=4 

Cố 
— Cổa+ Cổa +-:: + Cổ 

Cố 

— ng _ 1001. 941:5!1 100 
_ 61:91 9091 6ˆ 


Bài tập 2.15. Phân bố xác suất của X: 


P(X =k) = CR( }*()®-%, 


(k=0,1,2,...,6). Vì Z=X— Y và X+Y =6nên Z = 2X -6, và 


z 2ˆ _ +Ã ^ HA Z Lễ 
ta có thể việt phân bô xác suât của Z: 


P(Z = 2k — 6) = 5100615 10. .... 


Từ đó tính được ra kỳ vọng của Z: 














SN VAN | 

(2) = „60187 *(2k— 6) =2. 
Một cách tính đơn giản hơn là: kỳ vọng để bóng vào rổ mỗi lần 

ném là 2⁄3. Bởi vậy nêu ném 6 lần, thì kỳ vọng số lần bóng vào rổ là 

6x2/3 = 4, tức là ta có E(X) = 4, từ đó suy ra E(Z) = 2E(X)—4 = 2. 

Bài tập 2.16. ï) Chiến thuật: 

Lần thứ nhất: B hỏi: “số đó có lớn hơn 2=! không?” 
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e Nếu câu trả lời là “có”: số đó sẽ nằm trong đoạn [2“~1 + 1;2”] 
e Nếu câu trả lời là “không”: số đó sẽ nằm trong đoạn [1;2“~1] 


Lần thứ ¡: Ta sẽ xác định được sô đó nằm trong đoạn có độ dài 2"~ï. 
Vậy, sau ø lần, ta sẽ xác định được sô A đã chọn. 

i Ta sẽ chứng minh một khẳng định tổng quát hơn: giả sử X là 
một tập hữu hạn có z› phần tử, A chọn một phân tử của X, và B hỏi 
các câu hỏi kiểu “phần tử đó có nằm trong tập con Y của X không”, 
và A sẽ trả lời là có hoặc không. Khi đó mọi chiến thuật hỏi của B sẽ 
cần trung bình ít nhất là log› z» câu hỏi để xác định phần tử mà 4 
chọn. (Trường hợp bài toán nêu ra là trường hợp rn = 2"). 

Ta có thể chứng minh khẳng định này bằng cách qui nạp theo zn. 
Với các số m nhỏ (ví dụ m = 2 hay m = 3), dễ dàng kiểm tra trực 
tiếp khẳng định), và với z = 1 thì khẳng định là hiển nhiên. Giả sử 
ta đã chứng minh được khẳng định cho các tập có không quá mm — 1 
phần tử (m > 2), ta sẽ chứng minh rằng khẳng định đúng cho tập X 
với m phần tử. 

Dù là chiến thuật nào, thì câu đầu tiên của B cũng phải có dạng 
“phẩn tử đó có nằm trong Y không”, trong đó Y là một tập con của 
X mà B chọn ra. Nếu câu trả lời là có, thì trong các bước tiếp theo 
B phải chọn các tập con của Y, và như vậy, theo qui nạp, sẽ cần 
thêm trung bình ít nhất là log› |Y | lần hỏi. Ở đây ta có thể coi rằng 
1 <|Y| = k< |X| = m. Nếu câu trả lồi là không, thì có nghĩa là 
phần từ A chọn nằm trong X \ Y, và sẽ cần thêm trung bình ít nhất 
logs |X \Y| = logs(mn — k) lần hỏi. Xác suất để phần tử mà A chọn rơi 


vào Y, tức là để A trả lồi Yes cho câu hỏi đầu tiên là |Y|/|X| = k/m, 
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và xác suất để A trả lời No cho câu hỏi đầu tiên là (mm — k)/m. Như 
vậy, nêu trong chiến thuật hỏi dùng tập con Y cho câu hỏi đầu tiên, 
thì sẽ cần trung bình ít nhất là 


1n. 





TP y»ể =^ Wap 70/2 lộ 
Tn Tn 


câu hỏi để xác định được phần tử 4 chọn. Chú ý rằng hàm z log› z là 
hàm lỗi, do đó khi mm cô định và 0 < k < rm thì giá trị của m logak+ 
m—k loga(m — k) đạt cực tiểu khi mà k = m — k = m/2, bởi vậy ta có 


k —k 
1+ logak+ —= loga(m — k) > 1+2.(1/2).loga(wa/2) = logsm, 





từ đó suy ra điều phải chứng minh. 


Bài tập 2.17. 


csin z nêu z € (0,7) 
0y (Z) = Ạ 
0 nêu z ý (0,7) 


1) Ta có: 
œ m 
Le | n6) = Í csinzdẽ = =ccosa  = 9e 
—oo 
do đó c = 1/2. 














TẠP ". 
1) E(Y) = J s# sin ødø = _ Một các giải thích khác là, hàm 
0 
mật độ øy (+) đổi xứng quanh điểm z = z/2, và do đó giá trị kỳ vọng 
của Y bằng z/2. 


Bài tập 2.18. X có phân phối Pareto với tham số œ > 1, hàm mật độ: 


œ rÁ 


0 nếu z < 1 
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Kỳ vọng của X là: 
œ œ œ 


E(œ)= | + S— dạ = 2E) = : 
¡ #@rl —=œ +] 1 (œ—-] 








Bài tập 2.19. Gọi (a;, b;), ¡ = 1,...,m, là các cặp giá trị của (Ƒ, G), 


d¿,b¡ > 0. Từ giả thiết ta có P(F' = q¡, „và 


=0) }= " 
lo (JỦ»e© = ;|Ï[b,S(Œ +@/2 = ¡|[[‡=. 
_= ¿=1 Xã 





1 


- 


Áp dụng bắt đẳng thức Cauchy (trung bình nhân nhỏ hơn trung bình 


cộng), ta có 
EU) EU ÌT SP vuyy 
2G(( + G)/2) TC| đ + Ủ¿ \ đ¿ -E bị 


1 ` qŒ¿ “ b; 
<: mn) PP stn}=! 


Bài tập 2.20. ï) X có phân phôi hình học P(&) = p(1 — p)®=D. 
R(X)= ”k-p(—øp)°°=pÀ”k-(L—p®" 


k>1 k>1 
l1 1 


"“”#q-q-p)?"p 
5(X?)= k?-p(—p)*" 





b¿ 











- 


|I 
= 


% 








3| 



























































k>1 
=p(—p) `k(k— 1)-(1—p)"'?+pÀ”k-p—p)”1 
k>2 k>1 
— 2) 1 z 2—p 
PHỦ IT CS ĐIP Tp” xế ” 
uar(X) = E(X?) - (E(X))?= —t. 


294 


1.2. Lời giải bài tập Chương 2 
































0đ; ifechehdtesgnai ae 
p 
ý A" 
1i) X có phân phôi Poisson P(k) = ĐT: 
AẺ AR-1 
R =e ^ -Ằ =Àc^ 
(X)=e À`k Tị Àe SN DỊ 
b>1 1 
=Àe ÀeÀ=À, 
AẺ A*-1 
ñ'/ 2) _ 2À ĐẾN ví SA 
(X) 3 an” (— 1)I 
b>1 >1 
A*-1 A*-1 
— NjA Ị 
Àe* |2 ,#—1)' G=TT† „tec 0| 
k>1 k>1 
































a#2 + bnễu 0< z< 1 














Bài tập 2.21. E(X) =2/3, ox(z) = ÿ 
ÁP ã /3; 0x) tư 














Ta có 
1 
2 aÐ 
273 = E(X)= | r(aä +Ù)dr= + 
0 
và 
œ 1 
1= | pxœ de = [(ax2 +9) + b)d. „= + 
—œ 0 


Giải hệ phương trình tuyến tính trên theo ø và b, ta được ø = 2,b = 
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1/3, từ đó suy ra 














1 
(X2?) = Ja2oz + 1/3)dz = 2/5 + 1/9 = 23/45 
0 




















và uar(X) = R(X?) — E(X)? = 23/45 — 4/9 = 1/15. 








Bài tập 2.22. ¡) Xét một mẫu máu hỗn hợp gồm k mẫu máu. Ta gọi 
các biến cố: 4 = “mẫu máu hỗn hợp chứa kháng thể X”; 4; = “mẫu 
máu ¡ chứa X”. Khi đó 


Để cho gọn, đặt (1 — p)# = g, ta có P(4) =1— (1— p)* =1-—q. 


iD Gọi 9 là biến ngẫu nhiên tổng số lần phải xét nghiệm. Ta có 
phân phối của S: 





S | 1T †n + k | --- | rn +1nk 
Ga" 11—a) |: La-g)” 





3 
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>#(8)= Š `jg”" lạ = 0m +) 











=m ` Og”°(1— g)+k  i01a"4(1 — q) 
=0 =0 


=... BỊ =)m Sách ;;0MGIÉIEST:) Hệ 





TT mk(1 -= q), 











5459) =Š  Củn m=—i(1 — q)'(m + ¡k)? 





=- ° + 2mk in Tmm— H: 1g} +2 20, d”"1~ qÌ 
;=0 


= mỀ + 2mk - m(1 — q) + k? [m(1— m)(1 — g)?+ m{(1 -9)| 
= mỗ + 2m2B(1 — q) + mk2(1— q) [(m — 1)(4 — 1) + 1| 
= 0ar(8) = E(9°) — E(S)? = mk2(1 — q)d. 






































iii) Ta có E(S) < N & m+mk(1—q) < mk ©® kq > 1 © k(1—p)* > 1. 





Bài tập 2.23. Không mắt tính tổng quát, ta coi X,Y nhận hữu hạn 


các giá trị ơị,da,..., dạ, (œ¡ z2 ø; V ¡ # 7), với các xác suất p(X = 

2 z n †? .-?2 

đ) = pị > 0 và p(Y = ø¡) = q¡ > 0. ỞỔ đó ồ” p¡ = })} g; = 1. Theo giả 
¿=1 ¿=1 


thuyết, ta có E(X*) = $),afp; = E(Y*) = 9), afq¡, hay có nghĩa là 
337 ¡ afa¿ = Ú VỚI #¿ = pị — g¡ và với mọi sô tự nhiên k. Cho k chạy 
từ 1 đến ø, ta được một hệ phương trình tuyến tính với n ẩn z;¡ và ø 
phương trình. 


Nếu a; # 0 với mọi ¡, thì định thức của hệ phương trình này là 
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định thức của ma trận 


đŒ1 G2 ...c. đm, 
2 2 2 
q1 q5 .... độ 
T H) T+ 
đ] đ2 ...c. đ„, 








(gọi là định thức Vandermonde) có giá trị khác 0 vì các số a; khác 
nhau, và do đó hệ phương trình chỉ có một nghiệm duy nhất là 
nghiệm tầm thường z; = 0 với mọi ¡, có nghĩa là ta có p; = qg¡ với mọi 
¡, hay nói cách khác, X và Y có cùng phân bố xác suất. 

Nếu giả sử chẳng hạn ø; = 0, thì ta chỉ xét ø — 1 phương trình 
đầu tiên, với n — 1 ẩn số zạ,...,z„. Tương tự như trường hợp phía 
trên, ta phải có ø; = g¡ với mọi ? > 2, từ đó suy ra ø„ = 1— 3 2> Dị = 
1—});>¿ = gi. và X và Y cũng có cùng phân bố xác suất. 

Bài tập 2.24. Giả sử X có phân bố mũ với tham số À > 0, hàm mật 
độ của X là 


Ae~^* nêu z > 0 
0x (#) = Ạ 
0 nều z <0 








Khi đó E(X) = 1/A, và moment bậc » của X bằng E(X) = An! với 


mọi nø € Ñ. 












































Bài tập 2.25. Hàm đặc trưng của X là óx(s) = JE(cos sX)+jR(sin sX), 
(s € JR), và của —X là ø_ x(s) = E(coss(—X)) + ¿(in s(—X)) = 
óx(s). X đối xứng khi và chỉ khi X và — X có cùng phân bố xác suất, 


























tức là khi và chỉ khi X và —X có cùng hàm đặc trưng, có nghĩa là 
9x = óx, hay nói cách khác ¿x là hàm thực. 
Bài tập 2.26. X có phân phối hình học P(X = k) = p(I—p)*~!Vk > 
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1. Hàm sinh xác suât của X: 








G P(k)zÈ = 1)È-1zÈ — in =1 
(z) = 27t )z =3 =0 ME) lệ: p2) =. 
Từ đó ta có: 
2p -?) 
Œ "¬ p GŒ° s.., 
&) (1—z+pz)2' &) (1—z+øz) 


và phương sai của X là: 


uar(X) =G”(1)+Œ@f(1)— (¿'()ˆ = 





Bài tập 2.27. X có phân phối nhị thức tham số ø,ø. P(k) = CÈø*(1— 


p)*. Hàm sinh xác suât của X: 


_> z*P(k `» # CnẾ (°/j) = (p2 ben", 


k=0 


Hàm Laplace: 


LỆ) = E(e"?Z) = `e “Ơtp*(1— p)* = (e"Íp+1— p)”. 
k=0 


1.3 Lời giải bài tập Chương 3 
Bài tập 3.1. Ta có: 


Pr(a,b]x]e, đÌx]e; ƒ]) = 
= Pr{J — œ,b|x]e, địx]e, f]) — Pr(] — œ, a]x]e, đỊx]e; ƒ]) 
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Số hạng thứ nhất: 


Pr{(| — œ, b|x]c, địx|e, ƒ]) 
= Pr(| — oo,b|x| — œ, đÌx]e, ƒ]) — Pzg(| — œo, b|x| — oo, e|x]e, ƒ]) 





= Pr{—œ,b]x]—œ, đ]x]— œ, ƒ])— Pr(—œ, b]x]— œ, đÌx]— œ, eÌ) 
+ Pz(J— œ, b|x] — œ, e|x]— œ, e])— Pr(|— œ,b|x]— œ, c|x] — œ, /] 
= Z#ríb,d, Ƒ) — Trữ, d,e) + #r(b,c,e) — Zp(b,c, ƒ) 


Số hạng thứ hai: 


Pr{ — œ, a|x]e, đ]<]e, f]) 
Zrí(a, d, ƒ) — Z#rí(a, đd,e) + Zrí(aœ,c,e) — #rí(a,e, Ƒ) 


^ 


Vậy: 


PrÑa, b|x]e, đ]x]e; f]) 
= Ƒr(b, d, Ƒ) — Ƒríb, d,e) + 7r(b,c,e) — #rí(b,c, Ƒ) 
— #+rgí(a, đ, ƒ) + #rí(a, d,e) — Z#r(a,c,e) + #rí(a, c, Ƒ) 
Bài tập 3.2. Giả sử hai người hẹn gặp nhau tại A. 
X là thời điểm người 1 đến A (€ [0, 1]) 
Y là thời điểm người 2 đến A (€ [0, 1]) 





12h 13h 
0 1 
LỆ 0,1 1 0,1 
¬ THỆn | ce)= biệt 
0, z ø |0, 1] 0, ụ # |0, 1] 
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1.3. Lời giải bài tập Chương 3 


1 1 l ca 
P(=1<X-Y<7)=Pxy(—1 <S£—9 


HE sxv.00ándy = Ÿ dadụ = Tp 


. 4<z— US4 + 
0<z<I, 0<yS1 








)nứự, se... - "‹ 
Vậy xác suât để hai người gặp nhau theo hẹn là Tế 


Bài tập 3.3. Giả sử tồn tại hàm mật độ của (X, X3) là øx,y (z, ) với 
X3 =Y. Xét hàm số ƒ : R2 —> R2, (z,w) —— (z3 — ,z + ) là song 


ánh khả vi liên tục, có Jacobian 


3z2 


1 


jJ 





—| 2 
I3 +1#0 


suy ra véc tơ ngẫu nhiên (U = X3 — Y,VW = X +Y) có hàm mật độ 


0u,v(u,0) = px,y(ƒ~”(w,0)).|J(~*(,9))|[Tˆ 


Vậy tồn tại hàm mật độ biên của U là øu(u) = [“ ŸŸ pu,v(u, 0)du. 
Nhưng U = 0 nên là biến ngẫu nhiên rời rạc có điểm hạt là 0 mâu 
thuẫn. Vậy không tổn tại hàm mật độ đồng thời của X và X3. 

* Thay X3 bởi j(X) với ø đơn điệu cũng được kết quả tương tự. 

Bài tập 3.4. Tung một xúc sắc 2 lần, được hai sô ký hiệu là a, b. Xét 
ba sự kiện: A là “a + b là số chẵn”, B là “a = 1”, Ở là “b=4”. 

Dễ kiểm tra được A, 2, C độc lập từng đôi, A và öU Œ không độc 
lập. 

Xét X = 0x,V = Ủg,Ä = ữƠ, khi đổ Z-£Y = WBue: 

Ta có: X độc lập với Y và Z nhưng không độc lập với Y + Z. 
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Bài tập 3.5. Phân bô xác suất đồng thời của 3 biên X, Y, Z độc lập 


với phân bô xác suất đều trên đoạn [0, 1] : 
1, (z,y,#) € |0, 1| 
0(#, 9, z) = 
0, (,g,z) ø [0, 1] 


Dễ thấy xác suất cần tìm bằng P =1— P(X+Y < Z)- P(X+Z< 
Y)- P(Y+Z< X)=1—3P(X +Y < Z), mặt khác P(X +Y < Z) 
bằng thể tích của hình tứ diện cho bởi các mặt z > 0, > 0,z > 





z-+-,1 > z trong không gian Euclide R3 với hệ tọa độ chuẩn (z, ø, z). 
và nó bằng 1/6. Từ đó suy ra P = 1/2. 

Bài tập 3.6. Có thể chứng minh bằng qui nạp theo ¿.. 

Bài tập 3.7. Ta có: 


+œ 


z.e ” với xz»>0 
øx(z) =.  p(z.v)dụ = | 
~Ãi 0 VỚI ø <0 
+tœo 


c# với >0 
0y (U) = l 0(#, J)d# = 
0 VỚI <0 


—oo 
Suy ra øx(z).oy(w) = ø(z,) nên X,Y là hai biến ngẫu nhiên độc 
lập. 

Có thể chứng minh ngắn gọn hơn như sau: hàm mật độ đồng 
thời ø(z, ø) có thể viết dưới dạng tích của hai hàm, một hàm chỉ phụ 
thuộc vào z và một hàm chỉ phụ thuộc vào +, do đó X và Y độc lập 
với nhau. 

Bài tập 3.8. Giả sử Xị ~ (/i,ø?) => Xi = ơIiX + vôi X ~ 
4(0, 1). 
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SUY ra 




















®x,(s) = E(exp(¿s1)) = E(exp(¡sơi X-+¡su1)) = exp(25/1).Óx (Ø1) 











ơ2s ơ2 2 
Vậy Öx,(s) = exp(is/a — “È”), tướng tự Øx,(s) = exp(isua — Đ:”) 
Vì Xị, X› độc lập nên ®x,+x„(s) = ®x,(s ) (9 ) = exp(/s(m + 
ơ2 ơ2 2 ơ2 
Hạ) - C1”) hay Xị + X; ~.M(m + bạ, “ nỀ  H, 


Bài tập 3.9. Xác suất cần ước lượng là xác suất để tổng của các số 
hiện lên trong 350 lần tùng đầu nhỏ hơn 1000. 

Bài tập 3.10. Gọi X;,..., X; là các bnn chỉ số chấm xuất hiện trong 
5 lần tung. Khi đó X = Xị + X› + X; + X¿ + X; chỉ tổng sô chắm 


xuất hiện trong 5 lần tung. 














Ta Có: 
1 
Gx,(2) = E@5) = 2 3# 
k=1 
SUY ra: 
5 1ocỒ 
Gx()= llex.2) = c2. ø JP 
¿=1 k=l1 


^ Z Lễ P` 7 ` ^ _Á . .-k 
Vậy xác suât cần tính là hệ sô của z!” trong khai triển của Œ x (z). 





Bài tập 3.11. Đặt Y; = X; _ „ thì E(Y;) = 0, V(Y) = ø?. Chọn n 
đủ lớn để e— nụ > 0. Ta có P(% > c) = P(S%„ — nụ > e— nu) < 


E v2 : 
P(S, — ng| > e— nụ) = PS†Xi| > e— ng) < TS TT. Mà 
nơ? 



































Bài tập 3.12. Gọi X; là bnn chỉ số tiền thu được ở ngày thứ ¡ của 


năm. 
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Ta có: 





u = E(X;) = c—.50 .ðŨ = 




















ơ?= uar(X;¡) = E(X?) = #(X;)? <ằœ 




















Theo luật số lớn, với ø = 365: 


là ước lượng số tiền thu về được trong 1 năm (theo đơn vị nghìn 
euro). 
Bài tập 3.13. Ví dụ: Xét biễn ngẫu nhiên X có phân phối như sau 

% sĩ! +l:. “7 

p|1⁄4 1⁄2 1⁄4 
khi đó phân phối của X? là 

xX| 0 1 

l2 - 21/7 
Ta có cou(X, X?) = E(X3) — E(X)E(X”) = 0 nhưng X, X” không 
độc lập (vì P(X = -—1,X? = 1) = P(X = -—1) = 1/4 z# P(X = 
—1)P(X2 = 1)). 
Bài tập 3.14. r(X,Y) ~ —0.9427. 

















Bài tập 3.17. Ta có: 


P(K =k) = ` P(K =k| N=n).P(N = n) 
r>k 


? lở I 


_ ĐŠe”^AF (gÀ)-* s— p°e~^AÈ cak (pA)*e-?^ 


HC (n-Bl KV kl 
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Vậy K có phân phối Poisson với tham số pÀ. 

Bài tập 3.18. Ta có: 

R(Y⁄)=.]JuE(W |4 =<#)ðx(0)Me = [lv S:Aế 2 đe cá: 

Bài tập 3.19. Giả sử X ~ (u,5),Z = (Zi,Z:....Z„) với Z; ~ 
4V(0, 1) là các bmn độc lập. 

Khi đó X có dạng Xí = A.Z! + ” với A.Af = ». Suy ra 



































®x(s)= R(e/sX”) = g(ci(6AZ'+sw')) = R(cts42”) is” 





























Ta có s4z” = >),(} }¿ s;axj)Z¿ suy ra 


























R(c/s4Z") = lI meiÐ2x s,dEj)2Zj — Ko Sai, s,;ax;)2 
7 7 

= lI =3. S;_j S117) — - >> s52; đự;j 17) 
7 





= c—292£ 
# mụn) # 
Vậy ®x(s) = cÍUs —3935, 


Nó VA Z ^ Á» 2 x2 
Bài tập 3.20. Xét phân phôi của “-- 


x2 2 v2z „› 
PŒT <9)=P(-V3< x< v5) =C | e2 
Đạo hàm theo í 
: c~† c~t 
va (0) = ” 0x2 (Ð lên (0,+se) €) 
Ta cũng có 
c—? 
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Đặt X' = 2 Nà = " suy ra X“, Y” là các bnn độc lập. 


Ta có 
et-Z 


;y/(È,Z) =————] 
0x',y:Œ,2) xước (>0,z>0) 





SUY ra 
60001138 le — 202): = lï TnE DEN 
khi ¡ > 0. (oxz+y(u) = 0 khi w < 0) 
Bài tập 3.21. Đặt Z = (Z¡, Z2) = 0z(zi.za) = ~e = 
Xét ƒ(Z) = (ñ., Za), ta có py(z)(øa, z2) = l2le- 3-3. 








Với a = Z+,b = z b.S b) = Jle~(02+1)5 
= 2 => Z1 = qÙ. Suy ra 0/(z)(a,Ð) = 3.6 DIỆP 


Ta có: 


1 +©o _(a2+1)$2 
0Z\ (4) = F... an. n Ible š 


22 
l1 
(a2 + 1) 


Bài tập 3.22. ÿ Đặt U = X,V = Z suy ra X = U,Y =VVW1I-r2+ 





rU. 
Ta có: 
0U,v(u,U) = px,y(#,9)V1— r2 = px,y(u,0V1— r2 +ru) — 
3 3 3 1—r2 
1 u22 
`... 
2. 
2 2 
_— 4 v2 _—? 


Suy ra øu(u) = [„0u,vdu = sce~ 2 và ta cũng có øv(0) = s 


0U-0v = 0u,v Vậy X, Z là các bnn độc lập và có phân bố (0, 1). 
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1) Sử dụng phép đặt ở câu trên. Ta có 
+cœo +co 
TA >~U,}Ÿ >Ú)<= | | 0x,y(z,1)dxdụ 


`, Ñ ĐU,v (u, 0)dudu 


%>0 tt 


`. An purdudò = 7 + TẾ) 


>0 0>0Ũ >0 V2 0P cơn 








Áp dụng công thức đạo hàm của tích phân ta có 


f)= U |_ muyảnu 


w>Ũ 0>u>_—=ru 





vẽ 
+oœ 5 
— sã (c- 2(—r2) =_ —= —Ố _, 
2m v1—r? 2m1 — r2 


c© 


Suy ra Ï = z~arcsin(r) => P(X >0,Y >0) = ‡ + scaresin(r). 
ii) Sử dụng phép đặt ở câu i). Ta có Y = V1 — r2Z +rX. 
Vì Z, X là các bnn độc lập có phân phối chuẩn tắc nên dễ thấy Y 
cũng là phân phối chuẩn tắc. 
Ta CÓ: 
xvr(% œ — rụ)? 
: Nn Xn 2z(1— —MMð n &P m) 


Suy ra PxIy_„ là phân bố chuẩn có kỳ vọng là z+ và phương sai là 





0xỊy ( |)= 


1 — z2 (không phụ thuộc vào ). 


307 


Phụ lục A. Lời giải cho một số bài tập 
1.4 Lời giải bài tập Chương 4 
Bài tập 4.1. Kí hiệu X„ là biên nhị phân được xác định như sau: 


1 nếu lần tung thứ ø xuất hiện mặt 6, 
0 trong trường hợp ngược lại. 


Khi đó có thể xem { X„}„>o là dãy phép thử Bernoulli với 


Kí hiệu 
HE 2 k—i Ẩk HE: sa 
nép(p — 1) 
Với n = 6000 là một số nguyên dương đủ lón, theo định lý Moivre- 


Laplace ta có: 
P(850 < 5sooo < 1050) = 
850 — 6000 - 


=P| ————— << /600ụ < 
6000 - 


1 
TUSU,=1DUUU 5 





6000 - 


| CtlG:I ¬ 


1 5ð 
616 
+ ó(V3) — j(—3V3), 


1 
6 


trong đó ó là ký hiệu làm phân phối xác suất của phân bô normal 
chuẩn tắc .V(0, 1). (Bạn đọc tự tính toán tiếp!) 

Bài tập 4.2. Giải tương tự như bài tập 4.1. 

Bài tập 4.3. a) Ta biết rằng phân bố Poisson với tham số A (kí hiệu 
là P(A))có hàm đặc trưng là: 
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J11(217m1-2006. 

Vậy nếu S„ = 33_¡ X;¿ là tổng các biến ngẫu nhiên độc lập có cùng 
phân bố P(1) thì hàm đặc trưng của $%„ là: 

6s„(£) = [ớx, (0|? = ew67—Ð, 
Điều này chứng tỏ %„ có phân bố Poisson với tham số À = ñ. 
+? , 

b) Bởi câu a, ta có thể xem X„ = }} £; với {é;}„>¡ là dãy biên 

k=1 


ngẫu nhiên độc lập với cùng phân bố (1). Áp dụng định lý giới hạn 


trung tâm ta có: 


9 





w 
P(X, <Sn)=P (>=2—" <ú) HÙNG 2i) "ï . 
a vn . -ooc V2 2 


Tuy nhiên ta cũng có thể viết lại P(X„ < n) theo một cách khác: 
= n 
P(X„ < n) =3 rư =m `, 
k=0 
So sánh hai hệ thức trên ta có điều cần chứng minh. 
Bài tập 4.4. Theo định lý về tính liên tục ta có: Dãy biên ngẫu nhiên 
{X,„} với phân bố ,V(/„,ø2) hội tụ yêu đến bnn X 


© 0x„ —> Óx 
2+2 


ƠaÈ 
© exp(iunf— —T—) —? Ủx 
2,2 
© iunt— —— —> Ìnộx 





© (tra,ơn) —> (U,Ø). 
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với /u,ơ > 0 nào đó. Ta có điều cần chứng minh. 


Bài tập 4.6. Trước hết chú ý rằng phân bồ hình học với tham số p có 
hàm đặc trưng được tính như sau: 


p(£) = 3 e tụy = » e“*p(1 czj) se 


k>1 k>1 


p št|k pé 
=2. 20) ¡ 
ï-p?¿c (1— £*) + pe* 


¿k 





^ 


Vậy 





#t =1 
Ở xu (f) = dx„(C) = œ về tt J 


Chuyển qua giới hạn ta được: 


lim ó x„ (f) : 


tcỷ33” MU 





Về phải chính là hàm đặc trưng của bnn có phân bố mũ với tham số 
Z x l .A 2 ^ HA ~ Z 
À = 1.Do đó ~” —; 7(1). Do tính liên tục của phân bỗ mũ ta có 
n 
điều phải chứng minh. 


Bài tập 4.7. Bằng cách tính toán trực tiếp ta sẽ chỉ ra phân bố của 
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Y„ hội tụ đến phân bố mũ với tham số A = 1. Thật vậy: 


\p 
EW )= P01 n v0) <= P( max X; >1— n) 


=1l—- P(max Ä; < le 
1<i<n n 


m 
# 
=1-]]P@Œ <1- 7) 
=1 
HH HÀ 
1—(1—-—)”" nềuz>0,n >> 1, 
? 
0 nêu z < 0. 


—# TẤ 
mo | l—e *“nềuz >0, 


0 nếu z < 0. 


Vậy Y„ ^ P. 
Bài tập 4.9. Theo định lý Fubini ta có: 


1 5 1 - 29+ 
¬ã #x(12Ï> lạ / 0< 4Px)ds| 


1 1 29% ểc 
=lz- XI: CCeIE,)4Px| 


-l/ % =—_.. | 


sin €a sin €4 
< <j IŸ5°#lqx + ; ——_.. 
|+ lz|>5 


1 
< J Tin sẼ lI dPx 
lz|< 2 Jlz|>§ 
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Từ đó ta có 
—2 2 1. #*€ 
j= da| — 1. 
LẺ.2]> lễ Ƒ_ x(904ã 
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Phụ lục B 


Phân mềm máy tính cho xác 


suất thông kê 


Có hàng trăm phần mềm máy tính cho tính toán xác suất thống 
kê. Có thể chia chúng theo các tính chất sau: 

- Phần mềm cho toán nói chung, với các chức năng tính toán xác 
suất thông kê (ví dụ như MAPLE, MATLAB), hay là phần mềm chuyên 
về xác suắt thống kê (ví dụ như MINITAB, S-PLUS, SAS, SPSS), hay 
là chuyên dụng hơn nữa (để dùng trong một lĩnh vực hẹp có cần đến 
thống kê). 

- Phần mềm phải trả tiền (ví dụ như các phần mềm vừa kể trên), 
hay là miễn phí (ví dụ như R). 

- Độ mạnh, độ đầy đủ của các chức năng, và độ dễ sử dụng, v.v. 

Mỗi chương trình có những điểm mạnh và điểm yêu, thích hợp 
với những đôi tượng khác nhau. Ví dụ: 
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Phụ lục B. Phần mêm máy tính cho xác suắt thông kê 


- MATLAB thích hợp cho những người cần tính toán hình thức nói 
chung và có thể dùng đến thống kê. Gần đây MATLAB cũng được giới 
tài chính chuyên nghiệp dùng nhiều trong các công việc tính toán, 
làm mô hình, simulation, v.v. 

- Đối với những người dùng nhiều đến hồi qui và “data mining” 
(đào số liệu để tìm thông tin), thì những chương trình như SPSS có 
thể thích hợp hơn. 

- Chương trình R là một chương trình thống kê miễn phí, mã mỏ, 
và rất mạnh, được nhiều người dùng, đặc biệt trong giới hàn lâm. R 
trước kia có điểm dở là khó sử dụng, nhưng ngày nay, cùng với sự 
phát triển của giao diện trực giác, đã trở nên đễ sử dụng hơn nhiều. 

Các chương trình về cơ bản có nhiều nguyên tắc chung giống 
nhau, nên nếu đã sử dụng thành thạo một chương trình thì sẽ không 
quá khó khăn chuyển sang dùng chương trình khác. 

Để tính toán những ví dụ thống kê trong quyển sách này, các 
tác giả dùng một chương trình tương đôi gọn nhẹ (bù lại chỉ có ít 
chức năng) có tên là gretl (viết tắt từ: Gnu Regression, Econometrics 
and Time-series Library), một phần mềm thông kê mã mỏ do Allin 
Contrell (GS kinh tế Đại học Wake Forest) khỏi xướng và nhiều người 
ủng hộ xây dựng. Chương trình này được nhiều người khen là rất 
thích hợp cho giảng dạy ỏ đại học. Một số ưu điểm của gretl là: 

- Miễn phí, mã mỏ, 

- Có giao diện trực giác, rât dễ sử dụng, 

- Chạy trên nhiều hệ điều hành khác nhau, 

- Thích hợp về dạng số liệu với các chương trình thông dụng khác, 
- Có cộng đồng người sử dụng và người lập trình phát triển nhanh, 
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- Có thể nạp các sô liệu thông kê từ nguồn bên ngoài về qua internet, 
- Có các chức năng tính toán thông kê đủ mạnh, đủ dùng cho các 
sinh viên học về kinh tế lượng, cũng như cho môn xác suất thống kê 
ỏ bậc đại học. 


Có thể tìm hiểu về gretl trên trang web: http://gretÌ.sourceforge.net/. 
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Phụ lục C 
Bảng phân bô Z 


Phân bồ normal chuẩn tắc ,V(0, 1) còn được gọi là phân bố Z. 
Bảng phía trước cho xác suất Đv(o)( — , Z2). 
Bảng phía sau cho xác suất đuôi Đv (2, sÙ 


Z | 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 
CS... S—- 
0.0 | 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 
0.1 | 0.5398 0.5438 0.5478 0.B5B17 0.5557 0.5596 0.5636 0.5675 0.5714 
0.2 | 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 
0.3 | 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 
0.4 | 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 
0.5 | 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 
0.6 | 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7B17 
0.7 | 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 
0.8 | 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 
0.9 | 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 
1.0 | 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 
1.1 | 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 
1.2 | 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 
1.3 | 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 


@ Mð)Đ MÐ M M M MĐ MĐ MU ME c rc c c 


MB MÐ Ð ĐÓ Đ Đ M MĐM® 
(© œ ¬i GƠ Ơ + C© Ð  C 


© œ© œ ¬A  Ơ CƠ + C2 Ð h C (€© Ơ ¬i Ơ Ơ 


© CC CC CC C C C 


.9192 
.9332 


.9772 
.9821 
.9861 
.9893 
.9918 
.9938 
.9953 
.9965 


.9981 
.9987 


© C ĐC CC C CC C C C CC C CC C C C C 


9452 
9554 
9641 
9713 


9974 


.02275 
.01786 
.01390 
.01072 
.00820 
.00621 
.004661 
.003467 
.002555 
.001866 


© C C CC CC C CC CC CC C C C C C C C 


.9207 
.9345 


9463 
9564 
9649 
9719 


.9778 
.9826 
.9864 
.9896 
.9920 
.9940 
.9955 
.9966 


9975 


.9982 
.9987 


G0 0 0 02 Ó0 02 G2 02 0 02 
{© œ ¬iI Ơ Ơ + t0 Ð  C 


© C ĐC CC C CC C C C CC C CC CC C C C 


© C ĐC CC CC CC C C C CC C CC C CC C C 


.9222 0.9236 
.9357 0.9370 
.9474 0.9484 
.9B73 0.9582 
.9656 0.9664 
.9726 0.9732 
.9783 0.9788 
.9830 0.9834 
.9868 0.9871 
.9898 0.9901 
.9922 0.9925 
.9941 0.9943 
.9956 0.9957 
.9967 0.9968 
.9976 0.9977 
.9982 0.9983 
.9987 0.9988 
P{Z to oo} 
SP Sa TS a2 (6a 
0.001350 
0.0009676 
0.0006871 
0.0004834 
0.0003369 
0.0002326 
0.0001591 
0.0001078 
0.00007235_ | 
0.00004810 | 


.9251 
.9382 
.9495 
.9591 
.9671 
.9738 
.9793 
.9838 
.9875 
.9904 
.9927 
.9945 
.9959 
.9969 
.9977 
.9984 
.9988 


(© œ ¬i Ơ Ơ + C© Ð  C 


© C C CC C CC CC C C CC C C C C C C 


m> AI © CC C CC C C C C 


.9265 
.9394 
. 9505 
.9599 
.9678 
.9744 
.9798 
.9842 
.9878 
. 9906 
.9929 
.9946 
.9960 
.9970 
.9978 
.9984 
.9989 


© C C CC CC C CC CC C C C C C CC C C 


.0000316 
.0000206 
.0000133 
.0000085 
.0000084 
.0000033 
.0000021 
.0000013 
.933 E-7 
.792 E-7 


.9279 
.9406 


9515 
9608 


.9686 
.9750 
.9803 
.9846 
.9881 
.9909 
.9931 
.9948 
.9961 
.9971 
.9979 
.9985 
.9989 


7 
6 
5 
4 
13 
98 
12 
00 


© C ĐC CC C CC CC C CC CC C C C C CC 


(©  tO œ Œœ ¬i ¬A Ơ Ơ ỞƠỚ ƠỚ 


.9292 
.9418 


9525 
9616 
9693 
9756 


.9808 
.9850 
.9884 
.9911 
.9932 
.9949 
.9962 
.9972 


9979 
9985 


.9989 


œ QC ơn C ở C CƠ C ỞƠỚ C 


© C C CC CC C CC CC CC CC C C C CC C C 


.9306 
.9429 
.9535 
.9625 
.9699 
.9761 
.9812 
.9854 
.9887 
.9913 
.9934 
.9951 
.9963 
.9973 
.9980 
.9986 
.9990 


© C C CC C CC C C C CC C C C C C C 


P{Z to oo} 


>> (O Ơ@ 0 B pm (O mm M6 


.899 E-8 
.866 E-10 
.016 E-11 
.280 E-12 
.191 E-14 
.221 E-16 
.480 E-18 
.129 E-19 
.049 E-21 


.8319 
.9441 
.9545 
.9633 
.8706 
.9767 
.9817 
.9857 
.9890 
.9916 
.9936 
.9952 
.9964 
.9974 
.9981 
.9986 
.9990 
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Giới thiệu Tú Sách Sputnik 


Các sách đã xuât bản 


S001. Malba Tahan, Những cuộc phiêu lưu của Người Thích 
Đếm 


Lê Hải Yên, Phạm Việt Hùng và 
Nguyễn Tiến Dũng dịch, 236 trang, 
02/2015. 

Đây là cuốn sách viết về toán 
học thường thức được ưa chuộng 
nhất trên thế giới trong vòng một 
thế kỷ qua. Nó đã được in ra hàng 
triệu bản, được dịch ra hầu hết các 
thứ tiếng phổ biến trên thê giới như 
tiếng Anh, tiếng Pháp, tiếng Tây 
Ban Nha, tiếng Đức, tiếng Ả Rập và 





được tái bản liên tục hàng năm... 


Sự hâp dân đặc biệt của cuôn sách này năm ở chỗ nó vừa là một 
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quyển sách giới thiệu rất nhiều điều thú vị về toán học, đồng thời vừa 
có giá trị rất cao về văn học và chứa nhiều điển tích lịch sử thú vị. 
Cuộc phiêu lưu của nhân vật chính trong cuồn sách ly kỳ không kém 
“Nghìn lẻ một đêm”. 


Hợp với mọi lứa tuổi. 


S002. Viadimir Levshin, Ba ngày ở nước Tí Hon 


Nguyễn Tiến Dũng dịch, 190 
trang, 02/2015 

Đây là một quyển sách kỳ diệu, 
một “truyện thần thoại tuy không 
phải thần thoại” nhưng có phép 
màu làm cho cả học sinh và người 
lớn trở nên yêu toán học. Nó được 
nhà toán học Vladimir Levshin sáng 
tác ở Nga vào năm 1962 và từ đó 
đến nay được tái bản rất nhiều lần, 


tổng cộng hàng nghìn bản dịch, 


k4 
Sputnfc Nhà xuất bàn Thông Ẩn và Truyền thắng 





dịch sang các thứ tiếng khác nhau, 
và trỏ thành sách gôi đầu giường của biết bao thê hệ học sinh. Ba 
ngày ở nước tí hon để lại ấn tượng sâu sắc trong hàng triệu bạn trẻ, 
và nhiều người trong số đó về sau sẽ trở thành nhà khoa học, kỹ sư, 
bác sĩ, thương gia, v.V. 

Bản dịch của GS. Nguyễn Tiến Dũng do Sputnik xuất bản là bản 
dịch mới, chính xác hơn bản dịch cũ đã từng được in ởỏ Việt Nam 
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trước đây. 


Sách hợp với mọi lứa tuổi. 


S003. Nguyễn Tiền Dũng, Các bài giảng về toán cho Mirella, 
quyển I 


127 trang, 02/2015, kèm lời 
giới thiệu của GS. Hà Huy Khoái. 

Cuốn sách gồm 12 chương, dựa 
trên các bài giảng và các buổi nói 
chuyện mà tác giả dành cho cô con 
gái của mình. 

Trích từ một giới thiệu trong 
sách: Được viết bởi một nhà toán 
học hàng đầu là GS. TS Nguyễn 


Tiên Dũng, cuôn sách là một tài 





liệu quý và khác biệt gợi mỏ những 
vân để lý thú của toán học sơ cấp 
và hiện đại. Bản thân tôi rất ấn tượng với các bài giảng được dẫn 
dắt bằng ngôn ngữ gần gũi, hóm hỉnh nhưng rất logic và chứa đựng 
những ý tưởng sâu sắc của tác giả. Đây chắc hẳn là cuốn sách mà bất 
kỳ học sinh yêu toán nào cũng có thể tìm thấy những kiến thức bổ 
ích về toán học và việc học toán. 


Sách dành cho các học PTGS và PTTH. 
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S004. Trần Nam Dũng, 169 bài toán hay cho trẻ em và 
người lớn 


142 trang, 03⁄2015 TS. Trần Nam Dũng 


Đây là cuốn sách bổ ích cho 169 Bài toán hay 
những bạn học sinh và những người CHO TRẺ EM VÀ NGƯỜI LỚN 
yêu thích toán học. Với những bài 
toán được phát biểu rất vui, rất gần 
gũi trong cuộc sống, cuốn sách này 
sẽ đem lại cho các bạn những phút 
thư giãn cần thiết. 

Sách hợp cho cả trẻ em và người 
lón. 





S005. N. la. Vilenkin, Qui nạp 
và tổ hợp 


Hà Huy Khoái dịch, 03/2015, 87 
trang. 

Đây là một trong những cuôn 
sách viết hay và dễ hiểu nhất về 
phương pháp qui nạp và các vẫn để 
tính toán tổ hợp. Tác giả là nhà toán 
học Nga nổi tiếng N. Ia. Vilenkin. 
Sách hợp với trình độ phổ thông cơ 





sỏ và phổ thông trung học. 
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“Không chỉ quan trọng đối với những kỳ thi học sinh giỏi mà Tổ 
hợp và quy nạp là một phần không thể thiếu cho những ai muốn tiếp 
tục học tập, nghiên cứu và làm việc có hiệu quả trong những ngành 
toán học, tin học, kỹ thuật hay đơn giản chỉ là để trau đồi tư duy 


logic, điêu mà ai cũng cân đên trong cuộc sông.” 


Một sô sách sắp xuât bản 


Dưới đây là một sô sách trong Tủ Sách Sputnik đã hoàn thàn hoặc 
hẳn như hoàn thành vào thời điểm 05/2015. Ngoài ra các cộng tác 


viên của Tủ Sách Sputnk đang viết và dịch nhiều quyển sách khác. 


Lê Bích Phượng và Nguyễn Tiến Dũng, Romeo đi tìm công 
chúa, 100 câu đô vui hóc búa. 


Quãng 140 trang, hoàn thành bản thảo 04/2015. 

Sách này là một tuyển tập đúng 100 câu đồ vui toán học, từ đễ 
đến khó, phù hợp với mọi lứa tuổi, chia thành các đề tài: số học, hình 
học, qui luật, thuật toán, và logic. Đặc biệt, có một chương về Romeo 
đi tìm công chúa, và để tìm được sẽ phải trải qua nhiều thử thách 
gian nan. 

Ví dụ một câu đồ từ quyển sách: 

Romeo cùng với hai hiệp sĩ đi được đúng đường tới Động Tiên mà 
không bị sa vào bấy. Bà tiên đã biết trước về sự xuất hiện của ba vị 
khách này, nên đã chuẩn bị sẵn 5 cái mũ, trong đó có hai cái màu 


xanh và ba cái màu đỏ. Bà tiên bảo ba chàng trai xếp thành 1 hàng 
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dọc, không được trao đổi với nhau, rồi đội lên đầu mỗi người một 
chiếc mũ từ năm chiếc đó. Romeo đứng đầu hàng, không nhìn thấy 
được bà tiên đội mũ màu gì lên đầu ai. Toto đứng giữa, nhìn thấy mũ 
trên đầu Romeo nhưng không nhìn thấy mũ trên đầu Dario và đầu 
mình. Dario đứng sau cùng nhìn thấy hai mũ trên đầu của Romeo 
và Toto nhưng không nhìn thây mũ trên đầu mình. Bà tiên nói rằng 
“nêu ai suy luận được ra mũ mà mình đội màu nào một cách chắc 
chắn, thì sẽ được bà cho cái mũ đó”. Cả Dario và Toto đều rât thông 
minh, nhưng đều lần lượt đành nói rằng họ không suy luận được mũ 
họ đội trên đầu màu gì. Đến lượt Romeo, thì Romeo lại suy luận được 
ra là đang đội mũ màu gì, và được bà tiên tặng cho cái mũ đó. Bạn 


có biêt Romeo đội mũ màu gì không? 


Nguyễn Tiên Dũng, Các bài giảng về toán cho Mirella, Quyển 
về 


Quãng 170 trang, hoàn thành bản thảo 04/2015. 

Có kèm lời giới thiệu của GS. Nguyễn Văn Mậu. 

Tương tự như quyển “Mirella 1”, mỗi chương sách của quyển này 
xuất phát từ một cuộc nói chuyện hay một bài giảng cho Mirella (con 
gái của tác giả) về toán học. Những vấn để để cập tới trong sách 
bao gồm: các đại lượng vô cùng nhỏ và vô cùng lón, số học trên mặt 
phẳng, các hình đa diện lỗi và các tính chất của chúng, đạo hàm và 
biến phân và ứng dụng của nó (ví dụ như định luật Snell trong quang 
học), các vẫn để về thuật toán và tin học, đặc biệt là khái niệm “lượng 


thông in”, và các bài toán liên quan, ví dụ như bài sau: 
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Có 12 đồng tiền vàng trông giông hệt nhau, trong đó có 11 đồng 
tiền thật, và một đồng tiền giả. Các đồng tiền thật nặng bằng nhau, 
còn đồng tiền giả có khối lượng khác đồng tiền thật, nhưng không 
biết là nặng hơn hay nhẹ hơn. Dùng một cái cân cổ điển. Làm sao để 
với chỉ 3 lần cân mà chắc chắn xác định được rằng đâu là dồng tiền 
giả, và nó nhẹ hơn hay nặng hơn so với các đồng tiền thật. 


Sách hợp với cuôi cập PTCS trỏ lên. 


Lichtman, Bí mật, dôi trá, và đại sô. 


Nguyễn Tiên Dũng dịch từ tiếng Anh, quãng 160 trang, hoàn 
thành bản thảo 03/2015. 

Cuôỗn truyện cho thiên niên này đặc biệt ở chỗ nó có cốt truyện 
hẳn hoi, về cuộc sông và tình bạn của những học sinh lớp 8 ở một 
trường học ở Mỹ, đồng thời mỗi chương đều giới thiệu các ý tưởng và 
khái niệm toán học một cách rất tự nhiên và gần gũi cuộc sông. Cuốn 
sách nãy xuất bản bên Mỹ năm 2006, và đã đoạt nhiều giải thưởng 


về sách cho thiên niên. 


Kiselev, Hình học phẳng. 


Nguyễn Vân Hằng dịch từ tiếng Anh, quãng 360 trang, hoàn thành 
bản thảo 03/2015. 

Đây là quyển sách kinh điển về hình học cho học sinh phổ thông, 
được dùng làm sách học chính thức ở Nga trong nhiều thập kỷ, và gần 
đây được dịch sang tiếng Anh. Nó trình bày một cách hệ thống và lô- 
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gích các khái niệm hình học phẳng (cho học sinh PTCS và PTTH), và 
kèm theo rất nhiều bài tập để qua đó học sinh có thể nắm chắc các 


kiến thức cơ bản. 


Aleksandrova & Levshin, Người mặt nạ đen từ nươc Al-Jabr. 


Nguyễn Tiến Dũng dịch từ tiếng Nga, quãng 240 trang, hoàn 
thành bản thảo 04/2015 

Cuốn sách này cùng với hai cuỗn sách khác là “Ba ngày ở nước 
Tí Hon” và “Thuyển trường Đơn Vị” (hay còn gọi là “Thủy thủ Số 
Không”) tạo thành một bộ ba tập sách nổi tiếng do Levshin và Alek- 
sandrova viết vào thập kỷ 1960. Từ đó đến nay, bộ sách này đã được 
tái bản liên tục hàng năm, in ra ở nhiều nước trên thế giới, trỏ thành 
“sách gối đầu giường” của hàng trăm nghìn bạn trẻ, những người mà 
về sau sẽ trở thành các nhà khoa học, bác sĩ, kỹ sư, thương gia, nhà 
quản lý, v.v. 

Bản dịch mới này do Sputnik xuất bản tránh được nhiều lỗi sai 
của một bản dịch cũ đang được lưu hành tại Việt Nam. 


Sách hợp với mọi lứa tuổi. 


Đỗ Đức Thái, Các bài tập số học và đại sô cho học sinh 
PTGS. 


Vào năm 1993, GS. Đỗ Đức Thái (lúc đó là một tiễn sĩ trẻ) có viết 
hai cuỗn sách bài tập cho học sinh PTGS có năng khiếu về toán, một 


cuôn về sô học và đại sô, một cuôn về hình học. Hai cuôn sách đã đã 
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được in ra hàng chục nghìn bản, phục vụ nhiều thế hệ học sinh giỏi. 
Cuốn sách mới này của GS Đỗ Đức Thái là một phiên bản mỏ rộng 
và cập nhật của cuồn sách cũ đó về các bài tập đại số và số học. 

Phiên bản mới của cuôn sách “Các bài hình học cho học sinh 
PTCS” của GS Đỗ Đức Thái cũng sẽ được Sputnik ra mắt bạn đọc 
trong tương lai gần. 


Dành cho học các học sinh PTCS có năng khiếu về toán. 


Spivak, Câu lạc bộ toán học lớp 6 - lớp 7. 


Trần Nam Dũng dịch từ tiếng Nga. 

Cuốn sách này, với khoảng 500 bài toán hay, có đi kèm lời giải, 
được xuất bản bằng tiếng Nga năm 2003, và được dùng làm sách học 
ở các lớp PTCS năng khiêu về toán ở Matskva. 


Dành cho các học sinh PTCS. 


Các địa chỉ bán sách Sputnik 


Sách của Tủ sách Sputnik có được bán qua các công ty phát hành 
sách đến các cửa hàng online/offline các hội chợ sách, v.v. Ngoài ra, 
Sputnik có phân phối trực tiếp sách đến các địa điểm sau, những ai 
muôn mua có thể liên lạc. Danh sách này sẽ thỉnh thoảng được cập 


nhật. 
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Saigon (và khu vực miền Nam) 


- Nhà sách Cá Chép, 211-213 Võ Văn Tần, TP HCM, 08 6290 6951 


- Ms. Vũ Thị Bích Phương, Titan Education, 94 Mạc Đĩnh Chi, 
Mobile: 0909058520 Email: phuong@titan.edu.vn 


- Titan Education (địa điểm khác), 175 Phạm Hùng, P 4, Q. 8, TP 
HCM, Mobile: 0909058520 Email: phuong@titan.edu.vn 


- Mr. Sơn, số điện thoại 0947558338 . Có trang FB Sách cho trẻ 


Sachchotre. Có thể giao sách tận nơi. 


Đà Nẵng (và khu vực miễn Trung) 


- 111/18 Thanh Thủy, Đà Nẵng. Số điện thoại: 0906016943 hoặc 
01667286280. (Có thể gọi điện, giao sách tận nhà nếu cần) 


° ` z h z z r . ^^ HA « 
Hanoi và các nơi khác (có thể gọi điện hẹn lây hoặc mua 
sách qua bưu điện) 


- Booksquare (Quảng trường Sách), 12 Hòa Mã, Quận HBT; HN, 
Ms. Thủy, 04 3821 3888 

- Trung tâm đạy toán Pomath, Ngõ 158 Nguyễn Khánh Toàn, Cầu 
Giấy, HN Ms. Hiên 091 513 7066 

- Trung tâm CSVC và thiết bị, đồ chơi trẻ em - Viện KHGD VN 62 
Phan Đình Giót, quận Thanh Xuân, HN Mrs. Cao Chỉ (84.4) 38642687 

- Nhà sách Sư phạm, 12H1 Khu tập thể Đại học Sư phạm, Hà nội. 
Đt: 0437548642. 
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- Ms. Nguyễn Thị Thu - 241 phố Trần Đăng Ninh, Cầu Giây Mo- 
bile: 0982932219 Email: sach@sputnik.vn (nhận gửi sách qua bưu 
điện) 

- Ms. Quỳnh Anh, Ngõ 291 Lạc Long Quân, Nghĩa Đô, HN 093 
518 5555 (nhận gửi sách qua bưu điện) 


- Mrs Phượng, ngõ 43, đường Cổ Nhuẻ, 090 206 1246 (nhận gửi 
sách qua bưu điện) 


- Mrs. Hà 090 200 8386 (nhận gửi sách qua bưu điện) 


- Mrs. Thanh 091 323 9846 (liên hệ về phân phôi sách, mua số 
lượng lón) 


Online 


- Tiki.vn 
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